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内 容 拓 要 


本 书 探讨 了 如 何 通 过 使 用 与 HBase 高 度 集 成 的 Hadoop 将 HBase 的 可 
伸缩 性 变 得 简单 ， 把 大 型 数据 集 分 布 到 相对 廉价 的 商业 服务 器 集群 中 ; 
使 用 本 地 Java 客 户 端 ， 或 者 通过 提供 了 REST、Avro 和 Thrift 应 用 编程 接 
口 的 网 关 服 务 器 来 访问 HBase; 了 解 HBase 架 构 的 细节 ， 包 括 存 储 格 
式 、 预 写 日 志 、 后 台 进 程 等 ， 在 HBase 中 集成 MapReduce 框 架 ; 了 解 如 
何 调节 集群 、 设 计 模 式 、 拷 贝 表 、 导 入 批量 数据 和 删除 节点 等 。 


本 书 适 合 使 用 HBase 进 行 数据 库 开 发 的 高 级 数据 库 研 发 人 员 阅 读 。 





O’Reilly Media，Inc. 介 绍 


O’Reilly Media 通 过 图 书 、 杂 志 、 在 线 服务 、 调 查 研究 和 会 议 等 方 
式 传播 创新 知识 。 自 1978 年 开始 ，O’Reilly 一 直 都 是 前 沿 发 展 的 见证 者 
和 推动 者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关注 真正 重要 的 技术 趋 
势 一 一 通过 放大 那些 “细微 的 信号 ”来 刺激 社会 对 新 科技 的 应 用 。 作 为 技 
el O'Reilly 的 发 展 充满 了 对 创新 的 倡导 、 创 造 和 


O'Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”;， 创建 第 一 个 商业 
网 站 CGNN) ; 组 织 了 影响 深远 的 开放 源 代码 峰会 ， 以 至 于 开源 软件 运 
动 以 此 命名 ， 创 并 了 Make 洒 志 ， 从 而 成 为 DIY 半 命 的 主要 先锋 ;公司 一 
如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽 市 。O’Reilly 的 会 议和 峰会 集 
聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描绘 出 开创 新 产业 的 革 
命 性 思想 。 作 为 技术 人 士 获取 信息 的 选择 ，O'Reilly 现 在 还 将 先 峰 专家 
的 知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 ， 在 线 服务 或 者 
面授 读 程 ， 每 一 项 O'Reilly 的 产品 都 反映 了 公司 不 可 动摇 的 理念 一 一 信 
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“O’Reilly Radr Z6 O PIR., ” 


Wired 





“O”Reilly 和 凭借 一 系列 〈 真 希望 当初 我 也 想到 了 ) 非凡 
想法 建立 了 数 百 万 美元 的 业务 。” 
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“O’Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典 


“一 本 O’Reilly 的 书 残 代表 一 个 有 用 、 有 前 途 、 需 要 学 
SWE. ” 


Irish Times 





“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 远 ， 基 
广阔 的 视野 并 且 切 实地 按照 Yogi Berra 的 键 议 去 做 了 “如 果 
你 在 路 上 过 到 岔路 口 ， 走 小 路 《〈《 贫 路) 。 "回顾 过 去 Tim 似 
乎 每 一 次 都 选择 了 小 路 ， 而 且 有 几 次 都 是 一 内 即 逝 的 机 
会 ， 尽 党 大 路 也 不 错 。” 





Linux Journal 





感谢 我 的 妻子 Katja， 感 谢 我 的 女儿 Laura， 
以 及 我 的 儿子 Leon。 我 爱 你 们 ! 


推荐 序 


近年 来 ， 新 兴 的 互联 网 服务 领域 ， 以 及 电信 、 金 融和 交通 等 各 传统 
行业 出 现 了 数据 资产 的 爆炸 性 增长 ， 这 些 数据 资产 的 类 型 以 非 结 构 化 和 
半 结 构 化 为 主 ， 如 何 低 成 本 且 高 效率 地 存储 和 处 理 PB 甚 至 EB 量 级 的 数 
据 成 为 了 极 大 的 挑战 。 


Google 公 司 提出 的 MapReduce 编 程 框架 、GFS 文 件 系统 和 BigTable 
存储 系统 成 为 了 大 数据 处 理 技术 的 开拓 者 和 领导 者 ， 而 源 于 这 三 项 技术 
的 Apache Hadoop 等 开源 项 目 则 成 为 了 大 数据 处 理 技术 的 事实 标准 ， 迅 
速 推广 至 国内 外 各 大 互联 网 企业 ， 成 为 了 PB 量 级 大 数据 处 理 的 成 熟 技 
术 和 系统 。 面 对 不 同 的 应 用 需求 ， 基 于 Hadoop 的 数据 处 理工 具 也 应 运 而 
生 ， 例 如 ，Hive、Pig 等 已 能 够 很 好 地 解决 大 规模 数据 的 离线 式 批量 处 
理 问 题 。 但 是 ，Hadoop HDFS 适 合 于 存储 非 结 构 化 数据 ， 且 受 限 于 
HadoopMapReduce 编 程 框架 的 高 延迟 数据 处 理 机 制 ， 使 得 Hadoop 无 法 满 
足 大 规模 数据 实时 处 理应 用 的 需求 。 


传统 的 信息 系统 和 Web 应 用 大 多 采用 LAMP 架 构 构 建 ， 并 使 用 关系 
型 数据 库存 储 、 组 织 和 管理 结构 化 或 半 结 构 化 数据 。 通 用 的 关系 型 数据 
库 无 法 很 好 地 应 对 在 数据 规模 剧 增 时 导致 的 系统 扩展 性 和 性 能 问题 。 
此 ， 业 界 出 现 了 一 类 面向 半 结 构 化 数据 存储 和 处 理 的 高 可 扩展 、 低 写 
入 /查询 延迟 的 系统 ， 例 如 ， 键 值 存储 系统 、 文 档 存 储 系 统 和 类 BigTable 
存储 系统 等 ， 这 些 特性 各 异 的 系统 也 可 统称 为 NoSQL 系 统 。Apache 
HBase 就 是 其 中 己 迈 癌 实 用 的 成 熟 系统 之 一 。HBase 之 所 以 能 成 为 迈 回 
实用 的 成 熟 系统 ， 一 是 核心 思想 来 源 于 Google 的 BigTable， 二 是 有 
Apache 及 Hadoop 开 源 社区 的 支撑 ， 三 是 有 诸如 Facebook、 淘 宇和 支付 宝 
等 互联 网 公司 的 应 用 实践 ， 保 证 了 HBase 系 统 的 稳定 性 和 可 用 性 。 目 
前 ， 作 为 关系 型 数据 库 的 有 益 补 充 ，HBase 已 成 功 应 用 于 互联 网 服务 领 
域 和 传统 行业 的 众多 在 线 式 数据 分 析 处 理 系 统 中 。 


本 书 涉及 HBase 使 用 和 开发 过 程 中 的 各 方面 内 容 ， 章 节 组 织 由 浅 入 
深 ， 内 容 痔 述 细致 入 微 并 且 贴近 实际 ， 可 以 作为 参考 书 以 方便 读者 在 开 
发 过 程 中 随时 查阅 。 本 书 译 者 之 一 刘 佳 向 HBase 开 源 社区 提交 过 多 项 错 
误 修复 和 新 功能 ， 参 与 过 多 项 HBase 有 关 的 大 数据 分 析 系 统 研 发 项 目 ， 
WA 了 丰富 的 HBase 系 统 开发 经 验 。 我 相信 本 书 对 于 HBase 使 用 者 和 开 



































发 者 来 说 ， 都 是 及 时 和 不 可 或 缺 的 。 
查 礼 
于 中 科 院 计算 所 
2013 年 7 月 
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重视 ， 且 该 领域 涌现 出 了 非常 多 的 新 技术 。 技 术 的 发 展 和 时 间 的 沉 演 使 
得 HBase 开 始 被 大 家 广泛 认可 ， 成 为 海量 数据 在 线 存储 领域 的 首选 。 


本 书 是 讲述 HBase 相 关 技 术 的 第 一 本 图 书 ， 也 是 著名 图 书 出 版 商 
O'Reilly 出 版 发 行 的 HBase 权 威 书籍 。 


本 书 从 架构 、 开 发 、 应 用 和 运 维 等 多 个 角度 描述 了 HBase， 深 入 介 
绍 了 HBase 内 核 的 原理 和 机 制 以 及 社区 的 发 展 方向 ， 并 提供 了 应 用 层面 
的 多 种 示例 和 源 代 码 。 本 书 为 每 个 用 例 和 知识 点 提供 了 丰富 的 解释 和 注 
意 要 点 ， 使 用 户 可 以 由 浅 入 深 地 了 解 原 理 并 深度 使 用 其 功能 ， 并 且 体 现 
了 在 HBase 教 学 方面 的 最 新 进展 和 最 蜗 水 平 。 


本 书 的 成 功 离 不 开 Lars George 的 努力 。 在 HBase 还 处 于 萌芽 时 期 
I, Lars George 就 开始 投入 了 大 量 的 精力 ， 从 修复 HBase 中 的 问题 到 优 
化 性 能 ， 推 广 HBase 并 编写 HBase 可 用 性 文档 ， 他 是 HBase 领 域 里 大 师 级 
Aa 。 而 这 本 《HBase 权 威 指南 》 花 费 了 Lars George 许 多 的 时 间 和 精 




















阅读 本 书后 ， 我 们 不 得 不 承认 这 本 大 师 级 的 著作 很 好 地 应 对 了 社区 
中 HBase 发 展 所 面临 的 挑战 。 不 得 不 说 的 是 ， 本 书 著作 和 翻译 经 历 的 时 
间 较 长 ， 而 社区 中 HBase 发 展 速度 较 快 ， 许 多 版 本 已 经 发 行 ， 许 多 问题 
也 得 以 修复 ， 因 此 ， 本 书 最 终 落 地 后 会 与 最 新 HBase 版 本 的 功能 特性 有 
少许 描述 性 出 入 ， 还 望 广 大 读者 见谅 。 


在 翻译 过 程 中 ， 我 们 深刻 地 发 现 国 外 技术 领域 的 专业 性 ， 深 深 地 被 
世界 级 的 蜗 水 平 技术 所 展 撼 。 我 们 由 囊 地 和 希望 本 书 中 文 版 的 出 版 能 够 推 
动 国 内 HBase 教 学 、 使 用 和 发 展 。 本 书 译 者 代 志 远 在 翻译 期 间 就 职 于 阿 
里 巴巴 ， 译 者 刘 佳 是 中 科 院 计算 所 研究 生 ， 现 为 普 译 天 珊 技 术 总 监 ， 译 
者 蒋 术 在 腾讯 担任 数据 与 运营 文 撑 平 全 副 总 经 理 。 


感谢 人 民 邮 电 出 版 社 的 编辑 ， 他 们 为 保证 本 书 质量 付出 了 大 量 的 努 





本 书 中 概念 和 术语 较 多 ， 许 多 概念 和 术语 尚 无 公认 的 中 文 译 法 ， 加 
之 译 者 水 平 有 限 ， 译 文中 耕 有 不 受 之 处 ， 尽 请 读者 批评 指正 。 


代 志 远 


2013 年 7 月 
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HBase 的 故事 开始 于 2006 年 ， 当 时 旧金山 的 Powerset 创 业 公 司 试图 
建立 一 个 网 页 的 自然 语言 搜索 引擎 ， 但 他 们 构建 索引 时 涉及 一 个 复杂 的 
过 程 ， 比 标准 的 分 词 索引 结果 集 大 了 两 个 数量 级 。 他 们 曾经 使 用 
Amazon Web Service 存 储 索 引 ， 但 是 爬虫 抓 取 过 程 中 的 负荷 主要 集中 在 
此 。 OTRS, MBB R! 这 里 是 AWS， 无 论 你 正在 运行 什么 ， 请 
停止 运行 ! ”) 他 们 恰好 在 寻求 解决 方案 ， 而 此 时 Google 的 BigTable 论 文 

Rs 


Powerset 公 司 的 工程 负责 人 Chad Walters 此 时 发 表 了 如 下 的 言论 : 











Googles FGFS (Google File System) 构建 的 
BigTable 一 样 ， 在 Hadoop 的 分 布 式 文件 系统 CHDFS) 基础 
上 构建 一 个 开源 系统 是 一 个 非常 不 错 的 主意 : (1) KBR 
构 是 成 熟 的 并 且 可 拓展 ; (2) 我 们 可 以 直接 利用 Hadoop 的 
HDFS; (3) 我 们 可 以 扩大 Hadoop 生 态 系统 的 影响 力 。 


BigTable 论 文 发 表 后 ， 在 社区 中 ， 人 们 一 次 又 一 次 地 讨论 基于 
Hadoop 构 建 类 BigTable 系 统 的 可 行 性 。 在 2007 年 年 初 ，Mike Cafarela 出 
乎 意料 地 在 Hadoop 的 问题 跟 踩 系统 中 上 传 了 一 个 包含 30 多 个 Java 文 件 的 
tar 包 : “我 实现 了 一 个 类 BigTable 架 构 的 存储 系统 demo， 叫 做 HBase， 虽 
然 它 还 不 完善 ， 但 是 它 已 经 做 好 准备 让 用 户 进行 实验 和 检查 了。”Mike 
与 Doug Cutting 在 Nutch 〈 一 个 开源 搜索 引擎 ) 项 目 中 长 期 共事 ，Doug 
Cutting 在 Nutch 中 实现 了 一 个 类 似 于 Google 分 布 式 文件 系统 的 项 目 来 管 
理 磁 盘 ， 因 此 Nutch 中 构建 的 索引 存储 可 以 不 仅仅 存储 在 一 台 机 器 中 

(Nutch 分 布 式 文件 系统 最 后 发 展 成 为 了 HDFS)。 


Powerset 公 司 的 Jim Kellerman 增 加 了 测试 用 例 并 填补 了 其 他 空白 ， 

















使 得 HBase 可 以 作为 Hadoop 的 一 部 分 代码 进行 提交 。Doug Cutting 在 
2007 年 4 月 3 日 完成 了 HBase 的 第 一 次 代码 提交 ， 代 码 提 交 到 了 Hadoop 工 
程 根 目录 的 contrib 子 目 录 中 。HBase 的 第 一 个 版 本 在 2007 年 10 月 作为 
Hadoop 0.15.0 的 一 部 分 发 布 了 。 


没 过 多 久 ， 本 书 作 者 Lars 开 始 在 #hbase IRC 交 流 频 道 出 现 。 当 时 
Lars 面 临 大 数据 的 问题 ， 并 且 尝 试用 HBase 来 解决 这 个 问题 。 经 过 一 番 
辛 昔 的 摸索 ，Lars 成 为 了 Powerset 之 外 的 HBase 的 第 一 个 用 户 。 我 清楚 地 
记得 ，Lars 当 时 记录 了 他 在 WorldLingo 公 司 的 生产 集群 的 问题 反馈 清 
单 ，Lars 当 时 在 这 家 公司 担任 CTO。 清 单 展示 了 他 们 的 生产 集群 中 
HBase 的 10 个 版 本 (从 Hadoop 0.15.1 到 HBase 0.20) ， 每 个 版 本 的 集群 
都 有 将 近 40 台 机 器 。 


在 这 些 年 来 所 有 为 HBase 做 出 贡献 的 人 中 ， 有 共有 史诗 般 意 义 的 就 是 
Lars， 因 为 他 写 了 这 本 书 。Lars 一 直 在 为 HBase 页 献 文 档 ，HBase 想 要 被 
更 好 地 使 用 和 推广 ， 就 需要 有 良好 的 文档 。 每 个 人 都 同意 Lars 的 想法 ， 
并 且 能 够 专注 地 投入 编程 工作 中 ， 因 此 Lars 在 工作 和 欧洲 旅行 期 间 开始 
编写 如 何 使 用 HBase 的 文档 和 以 构 描述 ， 并 承担 起 了 HBase 非 官方 的 欧 
洲 大 使 职责 。Lars 在 其 关于 HBase 的 博客 〈 http:/www.larsgeorage.com 
) 中 记录 了 HBase 的 工作 原理 ， 并 在 关键 阶段 推动 了 HBase 社 区 的 发 展 
(一 篇 重要 的 博客 文章 解释 了 HBase 依 赖 IVy 进 行 编译 是 个 非常 棒 的 主 


mH) © 


在 微软 公司 赞助 HBase 的 时 期 ，HBase 也 发 生 了 非常 有 趣 的 事情 。 
Powerset 在 2008 年 7 月 被 微软 收购 ， 在 此 期 间 其 员工 不 允许 贡献 代码 ， 
为 微软 法 务 部 门 需要 审核 HBase 代 码 库 并 得 看 HBase 与 SQLServer 的 关 
系 ， 直 到 一 个 月 后 才 宣 布 重新 贡献 代码 给 社区 〈 我 是 微软 的 一 名 员工 ， 
全 职 为 Apache 开 源 项 目 工作 ) 。 之 后 Facebook 也 开始 使 用 HBase， 用 于 
存储 海量 的 邮件 信息 或 点 击 信息 ， 后 来 Yahoo 部 普 了 1000 台 HBase 集 群 
用 于 定位 微软 Bing 的 怜 虫 快照 。 同 期 非 运 行 在 HDFS 上 的 MapR 系 统 也 仍 
处 在 开发 中 。 


我 很 清楚 ， 社 区 和 HBase 的 发 展 得 利于 一 群 HBase 的 核心 committer 
的 辛 苗 努 力 。 一 些 核心 开发 成 员 ， 如 Todd Lipcon、Gary Helmling 和 
Nicolas Spiegelberg， 已 经 付出 了 多 年 的 努力 ， 没 有 他 们 我 们 无 法 走 到 今 
天 这 一 步 ，HBase 目 前 已 经 从 一 个 分 文 代码 成 长 为 了 一 个 独立 存储 项 
Ho Jonathan Gray 冒险 将 其 初创 的 streamy.com 网 站 基于 HBase 进 行 建 
Ww, Andrew Purtel] 在 趋势 科技 组 建 了 一 只 HBase 团 队 ，Ryan Rawson 得 

















到 了 StumbleUpon 的 赞助 ， 这 是 HBase 在 Powerset、 和 微软 之 后 获得 的 最 主 
要 的 赞助 ， 并 且 还 发 掘 了 一 个 非常 历 害 的 commiter John-Daniel 
Cryans， 而 当时 Cryans 还 只 是 一 个 繁忙 的 学 后。 之 后 Lars 不 断 地 修复 缺 
陷 ， 并 撰写 文档 。 因 此 ，Lars 是 撰写 第 一 本 关键 的 HBase 书 籍 的 最 佳人 
选 ， 也 让 所 有 人 都 可 以 了 解 HBase。 








Michael Stack，HBase 项 目 管理 人 
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你 阅读 本 书 的 理由 可 能 有 很 多 。 可 能 是 因为 听 说 了 Hadoop， 并 了 解 
到 它 能 够 在 合理 的 时 间 范 围 内 处 理 PB 级 的 数据 ， 在 研读 Hadoop 的 过 程 
中 发 现 了 一 个 处 理 随 机 读 写 的 系统 ， 它 叫做 HBase。 或 者 将 其 称 为 目前 
流行 的 一 种 新 的 数据 存储 架构 ， 传 统 数据 库 解 决 大 数据 问题 时 成 本 更 
高 ， 更 适合 的 技术 范围 是 NoSQL 。 


无 论 你 是 如 何 来 到 这 里 的 ， 我 都 希望 你 能 够 了 解 并 学 习 如 何在 企业 
或 组 织 中 使 用 HBase 解 决 海量 数据 问题 。 你 可 能 有 关系 型 数据 库 的 背 
景 ， 但 更 希望 去 研究 这 个 “ 列 式 存 储 ” 系 统 ， 也 许 你 听 说 HBase 能 够 不 费 
力 地 进行 线性 拓展 ， 并 且 有 足够 的 理由 成 为 下 一 代 网 络 系统 。 


在 2007 年 年 底 ， 我 曾 面临 百 万 级 的 文档 存储 需求 ， 并 且 需 要 满足 容 
音 和 可 扩展 等 要 求 。 我 拥有 丰富 的 MySQL 数 据 库 经 验 ， 并 使 用 这 种 数 
据 库 来 存储 数据 ， 最 终 服务 于 我 的 网 站 的 用 户 。MySQL 可 以 在 运行 于 
一 台 服 务 句 的 同时 ， 拥 有 为 一 台 备 份 服务 器 ， 其 无 法 应 对 如 此 海量 数据 
的 处 理 ， 于 是 我 只 好 寻找 其 他 可 用 的 存储 数据 库 。 


我 的 口头 禅 是 : “Google 是 如 何 解决 这 类 问题 的 ? ”后 来 我 接触 了 
Hadoop， 在 短暂 使 用 Hadoop 之 后 ， 我 面临 随机 读 写 的 问题 一 一 但 是 这 
个 问题 已 经 得 以 解决 ，2006 年 Google 发 表 了 BigTable Y 论文 ，Hadoop 开 
发 者 拥有 了 BigTable 的 开源 实现 ， 并 称 其 为 HBase。 这 就 是 解决 我 的 问 
题 的 答案 ， 所 以 这 一 切 看 起 来 顺理成章 .……. 


如 今 ， 我 已 经 不 再 回忆 目 己 刚 开 始 接触 Hadoop 和 HBase 的 日 子 有 多 
艰难 了 。 我 希望 可 以 从 今天 开始 使 用 HBase，HBase 目 前 已 经 成 熟 ， 接 
近 1.0 版 本 ， 并 且 目 前 已 经 有 大 量 知 名 企业 在 使 用 ， 如 Facebook、 
Adobe、Twitter、Yahoo!、 趋 势 科 技 和 StumbleUpon ( 
http://wiki.apache.org/hadoop/HBase/PoweredBy ) 。 我 的 集群 是 第 一 个 
生产 集群 〈 迄 今 为 止 ) ， 到 目前 也 遇 到 了 许多 有 趣 的 问题 。 


如 预期 所 料 ，HBase 从 0.1x 版 本 开始 成 为 社区 项 目 ， 我 有 竺 为 这 个 
项 目 贡献 代码 ， 并 最 终 被 要 求 成 为 全 职 的 committer。 

















过 去 几 年 我 从 其 他 开发 者 身上 学 到 了 许多 知识 ， 并 且 一 直 在 努力 地 
学 习 。 我 的 信念 是 ， 我 们 还 远 没 有 达到 这 个 技术 的 顶峰， 而 这 个 技术 也 
会 随 着 时 间 的 推移 不 断 地 成 长 和 演变 。 让 我 们 用 这 本 书 对 整个 HBase 开 
发 者 社区 致 以 敬意 ， 我 的 写作 目标 不 仅仅 是 禾 凋 HBase 的 工作 机 制 ， 而 
且 还 要 为 用 户 提 供 如 何 将 这 一 技术 用 到 目 己 的 使 用 场景 中 。 


我 强烈 地 感觉 到 你 来 到 这 里 的 原因 是 打算 使 用 HBase 解 决 你 过 到 的 
问题 。 现 在 让 我 们 来 解 开 谜 底 。 








基本 信息 
在 我 们 开始 之 前 ， 以 下 是 一 些 基 本 介绍 。 
HBase 版 本 


在 写 这 本 书 时 ，HBase 社 区 已 经 决定 发 布 0.92.0 版 本 ， 社 区 主干 的 代 
码 已 经 开发 完成 ( http://svn.apache.org/viewvc/hbase/trunk/ ) ， 之 前 刚 
刚 发 布 了 0.91.0- SNAPSHOT 版 本 。 


我 们 很 难 跟 上 开发 的 步伐 ， 因 为 这 本 书 有 一 个 截止 日 期 一 一 在 
0.92.0 版 本 发 布 之 前 。 因 此 ， 它 只 能 记录 到 一 个 特定 的 修订 版 1130916 ¢ 
http://svn.apache.org/viewvc/hbase/trunk/?pathrev=1130916 ) Aik. wR 
你 发 现 书 中 描述 的 和 HBase 提 供 的 之 间 似 乎 并 不 匹配 ， 你 可 以 使 用 以 上 
的 版 本 与 最 新 版 本 比 对 近期 的 修改 。 


我 们 正 尽 一 切 努 力 更 新 本 书 网 站 ( http:/www.hbasebook.com ) 上 
的 JDiff( 比 较 不 同 软件 版 本 的 工具 〉 文 档 。 使 用 它 可 以 快速 看 到 不 同 版 
本 则 有 什么 变化 。 


编译 示例 程序 


有 关 这 本 书 的 示例 代码 可 以 在 GitHub 中 ( 
http://github.com/larsgeorge/hbase-book ) 找到 更 详细 的 信息 。 为 了 简 
本 书 只 提供 了 部 分 代码 卢 段 ， 即 重要 代码 ， 尽 量 避 免 出 现 重 复 的 样 
ee 


ENPTA TARE BE Re EP CE DEAE, A BRS BE 
找到 这 些 示例 。 每 草 都 有 独立 目录 ， 呈 树 形 结构 ， 更 利于 用 户 查 找 。 例 
如 ， 正 在 读 第 3 半 ， 你 可 以 到 对 应 目录 下 查找 第 3 章 完 整 的 示例 源 代码 。 

许多 示例 中 所 示 特 性 都 使 用 了 内 部 辅助 类 来 协助 运行 。 例 如 ， 使 用 
了 HBaseHelper 类 来 建立 测试 环境 和 收集 测试 结果 。 你 可 以 根据 具体 情 
况 来 修改 测试 代码 ， 或 植 入 错误 数据 以 观察 示例 中 所 示 特 性 的 行为 。 


编译 示例 代码 需要 借助 以 下 辅助 的 命令 行 工具 。 























Java 


HBase 是 使 用 Java 语 言 实 现 的 系统 ， ee 2.2.3 
节 的 “Java” 摘 述 了 应 该 如 何 安装 Java 环 境 
Git 


示例 源 代码 是 通过 GitHub 来 提供 托管 服务 ， 因 此 我 们 还 需要 文 持 
Git 一 一 一 个 分 布 式 版 本 协作 控制 系统 ，Linux 内 核 开 发 最 初 就 依托 此 系 
统 做 版 本 控制 。 © 开源 社区 提供 了 非常 多 的 Git 客 户 端 二 进 制 安装 包 。 


此 外 ， 用 户 还 可 以 通过 GitHub 提 供 的 下 载 链接 ( 


En //github.com/larsgeorge/hbase-bool/archives/master ) 下 载 文件 的 静 
态 快 照 RS o 


Maven 





书 中 提供 的 代码 编译 过 程 是 通过 Apache Maven © 完成 的 。 它 使 用 
Project Object Model (POM) 来 描述 编译 的 过 程 ， 其 中 包括 有 哪些 代码 
可 以 编译 以 及 哪些 不 需要 编译 。 因 此 读者 需要 首先 下 载 Maven 安 装 库 并 
在 本 机 上 进行 安装 。 








一 旦 读者 按照 上 述 信息 安装 好 所 需要 的 工具 ， 就 可 以 按照 以 下 命令 
开始 编译 项 目 。 





~$ cd /tmp 


/tmp$ git clone git://github.com/larsgeorge/hbase-book.git 


Initialized empty Git repository in /tmp/hbase-book/.git/ 
remote: Counting objects: 420, done. 

remote: Compressing objects: 100% (252/252), done. 
remote: Total 420 (delta 159), reused 144 (delta 58) 
Receiving objects: 100% (420/420), 70.87 KiB, done. 


Resolving deltas: 100% (159/159), done. 
/tmp$ cd hbase-book/ 


/tmp/hbase-book$ mvn package 


[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 
[INFO] 


Scanning for projects... 

Reactor build order: 
HBase Book 
HBase Book Chapter 3 
HBase Book Chapter 4 
HBase Book Chapter 5 
HBase Book Chapter 6 
HBase Book Chapter 11 
HBase URL Shortener 

Building HBase Book 
task-segment: [package] 


Building HBase Book Chapter 3 
task-segment: [package] 


HBase BOOK -io Sod bes eee eee ww Om SUCCESS [1.601s] 
HBase Book Chapter 3 ovo eo i eens SUCCESS [3.233s] 
HBase Book Chapter 4 ....... i ee eens SUCCESS [0.5895] 
HBase Book Chapter 5 ......................... SUCCESS [0.162s] 
HBase Book Chapter 6 ......................... SUCCESS [1.354s] 
HBase Book Chapter 11 ........................ SUCCESS [0.2715] 
HBase URL Shortener ........ ei c ccc ecees SUCCESS [4.91@s ] 


Total time: 12 seconds 
Finished at: Mon Jun 20 17:08:30 CEST 2011 
Final Memory: 35M/81M 


[INFO] -------------------------------------------------------------- 











这 段 信息 意 味 着 有 依赖 关系 的 库 已 经 下 载 到 了 本 地 目录 ， 源 代码 也 
随后 编译 成 功 了 。 在 每 个 子 目录 的 target 文件 夹 下 都 留 下 了 编译 后 的 
JAR 文 件 ， 即 每 章 的 源 代 码 和 .class 文件 归档 : 








/tmp/hbase-book$ 1s -1 ch64/target/ 


total 152 

drwxr-xr-x larsgeorge wheel 1632 Apr 15 10:31 classes 
drwxr-xr-x larsgeorge wheel 102 Apr 15 10:31 generated-source 
S 

-rw-r--r-- larsgeorge wheel 75754 Apr 15 10:31 hbase-book-ch64- 
1.0.jar 

drwxr-xr-x larsgeorge wheel 102 Apr 15 10:31 maven-archiver 





上 述 场景 中 ，jhbase-book-ch04-1.0.jar 文件 包含 了 第 4 章 的 示例 代 
码 。 我 们 可 以 使 用 如 下 命令 进行 测试 : 





/tmp/hbase-book$ cd che4/ 


/tmp/hbase-book/ch04$ bin/run.sh client.PutExample 


/tmp/hbase-book/ch@4$ bin/run.sh client.GetExample 


Value: vall 





bin/run.sh 已 经 配置 了 所 需 的 Java classpath， 并 添加 了 依赖 的 JAR 文 
件 。 


Hush: HBase URE 人 简写 


通过 了 解 HBase 提 供 的 功能 来 了 解 HBase 是 一 个 好 办 法 。 本 书 使 用 
了 有 共有 代表 性 的 表 的 集合 作为 例子 ， 并 包含 具体 的 数据 ， 这 样 可 以 很 容 
易 地 理解 经 过 操作 后 数据 状态 前 后 改变 的 过 程 。 读 者 可 以 执行 每 一 个 示 
例 并 查阅 结果 ， 该 结果 应 该 与 书 中 提供 的 结果 匹配。 修改 示例 是 进一步 
探讨 和 研究 HBase 的 好 方法 ， 借 助 辅助 类 可 以 进行 更 有 效 的 验证 。 


在 前 期 的 学 习 过 程 中 ， 了 解 系统 所 有 的 功能 是 非常 重要 的 一 个 环 
节 ， 而 这 本 书 恰好 提供 了 一 个 现实 中 的 例子 来 展示 HBase 的 大 部 分 功 
能 。 同 时 这 个 例子 也 被 用 于 与 其 他 存储 数据 库 进 行 对 比 ， 例 如 ， 与 传统 
的 基于 RDBMS 的 系统 进行 对 比 。 


这 个 应 用 的 名 称 叫 做 Hush HBase URL Shortener (HBase URL {ij 
5) 。 互 联网 提供 了 非常 多 的 服务 ， 每 个 服务 都 可 以 通过 URL 来 访问 。 
例如 ， 你 提交 了 一 个 网 页 ， 但 你 得 到 了 一 个 返回 的 短 网 址 。 例 如 ， 
Twitter 每 次 只 运行 并 发 送 最 多 140 个 字符 ， 但 URL 最 长 可 达到 4096 字 
节 ， 因 此 不 得 不 将 UREL 简 化 到 20 字 节 以 下 ， 以 节省 更 多 的 空间 给 实际 内 


i 


容 。 











例如 ， 这 是 由 Google 地 图 引用 California 的 Sebastopol 的 URL: 





http://maps.google.com/maps?f=q&source=s_q&hl=en&geocode=&q=Sebastopol, \ 
+CA, +United+States&aq=0&s11=47 .85931,10.85165&sspn=0. 93616,1.345825&ie=UTF 
8& \ 

hq=&hnear=Sebastopol, +Sonoma,+California&z=14 


经 过 Hush 模 式 ， 其 可 以 转化 成 如 下 URL: 


http://hush.1i/1337 


显然 ， 这 个 URL 更 短 ， 更 有 利于 复制 到 电子 邮件 ， 或 通过 限制 字数 
的 媒体 (如 Twitter 和 SMS) IK. 


但 是 ， 这 种 服务 并 不 仪 仪 是 一 张大 的 查询 表 。 诚 然 ， 非 常 多 的 用 户 
布 望 能 够 映射 短 网 址 到 完整 网 址 ， 但 需求 并 不 仅仅 如 此 。 用 户 更 多 的 是 
想 了 解 短 网 址 究竟 被 使 用 了 多 少 次 ? 因此 短 网 址 就 需要 保留 一 个 计数 
器 ， 用 于 在 用 户 点 击 网 址 的 时 候 进 行 统计 。 


更 高 级 的 功能 是 ， 用 户 可 以 使 用 固定 的 域名 或 定制 的 短 网 址 ID 而 不 
征 目 动 生成 的 地 址 ， 惑 像 上 面 例子 描述 的 那样 。 用 户 必 须 能 够 登录 短 网 
址 跟踪 ， 并 碍 看 日 、 周 、 月 报表 。 


所 有 的 这 些 都 在 Hush 模 式 中 实现 了 ， 用 户 可 以 很 容易 地 编译 和 运 
行 。 它 使 用 了 HBase 的 大 多 数 功 能 ， 在 适当 的 时 机 我 们 会 讨论 这 些 问 
题 。 














用 户 可 以 自己 创建 账号 并 使 用 Hush， 这 也 是 一 个 了 解 如 何 从 已 有 系 
统 导入 数据 的 好 例子 。 本 书 使 用 了 网 络 上 提供 的 数据 集合 : Delicious 
RSS feed。 这 里 面 有 少量 集合 是 可 以 随意 下 载 的 。 


使 用 场景 : Hush 


留意 本 书 中 从 Hush 有 角度 解 释 的 功能 。 很 多 地 方 使 用 了 


Hush 的 示例 代码 ， 但 是 它 仅仅 保持 在 非常 简单 的 展示 这 一 
层面 。Hush 作 为 一 个 使 用 场景 更 多 的 是 应 用 在 生产 系统 
rH 





Hush 没 有 华丽 的 UI， 只 有 朴实 的 功能 ，Hush 在 经 过 负 
载 均 衡 后 达到 数 千 的 TPS 请 求 完全 没有 困难 。 

有 关 Hush 如 何 运行 的 代码 片段 已 经 在 本 书 中 进行 了 描 
述 ， 完 整 的 代码 可 以 从 Git 库 中 下 载 并 独立 运行 、 调 整 和 学 
习 有 关 它 的 一 切 ! 


运行 Hush 


使 用 示例 代码 编译 和 运行 Hush 非 常 简单 ， 一 旦 用 户 可 以 克隆 或 下 
载 ， 就 执行 以 下 命令 ; 





$ mvn package 


ES REA, Beer ait MEH LAP air 2 RT Hush: 





$ hush/bin/start-hush.sh 


Starting Hush... 


INFO [main] (HushMain.java:57) - Initializing HBase 
INFO [main] (HushMain.java:6@) - Creating/updating HBase schema 


INFO [main] (HushMain.java:9@) - Web server setup. 

INFO [main] (HushMain.java:111)- Configuring security. 

INFO [main] (Sl1f4jLog.java:55) - jetty-7.3.1.v20110307 

INFO [main] (Sl1f4jLog.java:55) - started ... 

INFO [main] (Sl1f4jLog.java:55) - Started SelectChannelConnector@e.0.@. 





FAA @ PIN aa AT A WA Be A a8 i 
http:/Nocalhost:8080 进入 Hush 服 务 器 进行 处 理 。 








由 于 数据 已 经 存储 在 了 HBase 中 ， 因 此 用 户 可 以 放心 地 执行 Ctrl+C 
来 停止 Hush 的 启动 脚本 。 


排版 约定 
本 书 使 用 如 下 排版 约定 。 


斜体 : URL、 文 件 名 、 文 件 后 级 和 Unix 命 令 。 

等 宽 代 码 字 体 : 用 于 程序 清单 、 功 能 变量 、 环 境 变量 、 数 据 类 型 、 
描述 和 关键 字 等 。 

加 粗 的 等 宽 代 码 字 体 : 展示 命令 或 其 他 应 该 由 用 户 输入 的 文本 ， 也 
用 于 代码 清单 中 强调 的 部 分 。 

人 笠 的 等 宽 代 码 字 体 : 展示 应 该 使 用 用 户 所 提供 的 值 或 根据 上 下 文 确 
定 的 值 来 蔡 换 的 文本 。 


Wa 
EO 
a 地、 + 
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这 个 图 表示 一 个 提示 、 建 议 或 一 般 的 注意 。 


代码 示例 


本 书 的 目标 是 帮助 你 完成 工作 。 一 般 而 言 ， 你 可 以 在 自己 的 程序 和 
文档 中 使 用 本 书 中 的 代码 ， 如 果 你 要 复制 的 不 是 核心 代码 ， 则 无 须 取得 
我 们 的 许可 。 例 如 ， 你 可 以 在 程序 中 使 用 本 书 中 的 多 个 代码 块 ， 无 须 获 
取 我 们 许可 。 但 是 ， 要 销售 或 分 发 来 源 于 O?"Reily 图 书 中 的 示例 的 光盘 
则 需要 取得 我 们 的 许可 。 通 过 引用 本 书 中 的 示例 代码 来 回答 问题 时 ， 不 
需要 事先 获得 我 们 的 许可 。 但 是 ， 如 果 你 的 产品 文档 中 融合 了 本 书 中 的 
大 量 示 例 代 码 ， 则 需要 取得 我 们 的 许可 。 


在 引用 本 书 中 的 代码 示例 时 ， 如 果 能 列 出 本 书 的 属性 信息 是 最 好 不 
过 了 。 属 性 信息 通 千 包 括 书 名 、 作 者 、 出 版 社 和 ISBN。 例 如 : “HBase: 
The Definitive Guide by Lars George (O’ Reilly). Copyright 2011 Lars 
George, 978-1-449-39610-7”. 


在 使 用 书 中 的 代码 时 ， 如 果 不 确 定 是 否 属 于 合理 使 用 ， 或 是 否 超出 
了 我 们 的 许可 ， 请 通过 permissions@oreilly.com 与 我 们 联系 。 























我 们 的 联系 方式 
如 果 你 想 就 本 书 发 表 评 论 或 有 任何 疑问 ， 敬 请 联系 出 版 社 。 
美国 : 


O’Reilly Media Inc. 





1005 Gravenstein Highway North 
Sebastopol, CA 95472 

中 国 : 
北京 市 西城 区 西直门 南大 街 2 写成 饮 大 厦 C 座 807 室 (100035) 
REAR A GER) ARAT 


我 们 还 为 本 书 建立 了 一 个 网 页 ， 其 中 包含 了 勘误 表 、 示 例 和 其 他 额 
外 的 信息 。 你 可 以 通过 如 下 地 址 访问 该 网 页 : 


http://www.oreilly.com/catalog/9781449396107 

作者 还 为 本 书 创建 了 一 个 网 站 ; 
http://nbasebook.com/ 

关于 本 书 的 技术 性 问题 或 建议 ， 请 发 邮件 到 : 





bookquestions@oreilly.com 


欢迎 登录 我 们 的 网 站 〈 http:/www.oreilly.com ) ， 查 看 更 多 我 们 的 
书籍 、 课 程 、 会 议和 最 新 动态 等 信息 。 


我 们 的 其 他 联系 方式 如 下 。 


Facebook: http:/facebook.com/oreilly 


Twitter: http://twitter.com/oreillymedia 


YouTube: /http:/Awww.youtube.com/oreillymedia 


致谢 


首先 ， 我 要 感谢 我 已 故 的 父亲 Reiner 和 我 的 母亲 Ingrid， 他 们 一 直 文 
持 我 的 理想 ， 使 我 成 为 一 个 更 优秀 的 人 。 


在 写 这 本 书 时 我 获得 了 HBase 社 区 的 很 多 文 持 ， 没 有 这 些 文 持 ， 
HBase 不 可 能 有 今天 的 成 功 。 现 在 亿 布 世界 各 地 的 核心 公司 同 社区 提交 
了 非常 多 的 代码 ， 还 有 邮件 列表 中 对 许多 问题 的 支持 、 博 客 文 章 ， 这 些 
都 促进 了 开源 的 发 展 。 我 是 站 在 你 们 的 肩 上 前 进 的 ! 


感谢 本 书 贡献 者 Jean-Daniel Cryans、Jonathan Gray. Gary 
Helmling、 Todd Lipcon、Andrew Purtell, Ryan Rawson. Nicolas 
Spiegelberg, Michael Stack 和 Ted Yu， 以 及 名 誉 页 献 者 : Mike 
Cafarella, Bryan Duxbury 和 Jim Kellerman. 








还 要 感谢 本 书 的 审 校 者 Patrick Angeles. Doug Balog. Jeff Bean. Po 
Cheung, Jean-Daniel Cryans、Lars Francke, Gary Helmling. Michael 
Katzenellenbogen. Mingjie Lai, Todd Lipcon, Ming Ma, Doris 
Maassen, Cameron Martin, Matt Massie. Doug Meil, Manuel Mefner, 
Claudia Nielsen. Joseph Pallas. Josh Patterson, Andrew Purtell. Tim 
Robertson, Paul Rogalinski, Stefan Rudnitzki, Eric Sammer, Michael 
Stack 和 Suraj Varma. 


所 有 的 HBase 页 献 者 ， 请 继续 努力 ! 


最 后 ， 还 要 感谢 我 的 雇主 Cloudera 公 司 ， 它 为 我 提供 了 写 这 本 
书 的 时 间 。 





D 见 链接 http://labs.google.com/papers/bigtable-osdi06.pdf 。 
(2) 见 网 址 http:/git-scm.com/ 。 


© 见 网 址 http://maven.apache.org/ 。 


ole far 


在 探究 HBase 的 功能 之 前 ， 我 认为 有 必要 先 来 思考 一 下 为 什么 要 设 
计 出 这 样 一 套 新 的 存储 织 构 。 传 统 的 关系 型 数据 库 管 理 系统 (Relational 
Database Management System, RDBMS) 早 在 20 世 纪 70 年 代 已 经 出 现 ， 
并 且 帮 助 无 数 的 公司 和 机 构 实现 了 给 定 问 题 的 解决 方案 ， 时 至 今日 ， 
RDBMS 仍 旧 非 常 有 用 。 很 多 情况 下 关系 模型 都 能 够 非常 完美 地 阐述 问 
题 ， 但 是 在 面 对 一 些 特殊 的 场景 时 关系 模型 并 不 是 最 佳 的 解决 方案 。 9 


11 海量 数据 的 黎明 


我 们 生活 在 一 个 互联 网 时 代 ， 无 论 是 想 搜 索 最 佳 的 火 鸡 某 说 ， 还 是 
送 妈 妈 什 么 样 的 生日 礼物 ， 都 希望 能 够 通过 互联 网 迅速 地 检索 到 问题 的 
答案 ， 同 时 希望 得 询 到 的 结果 有 用 ， 而 且 非 常 切合 我 们 的 需要 。 


因此 ， 很 多 公司 开始 致力 于 提供 更 有 针对 性 的 信息 ， 例 如 推荐 或 在 
线 广告 ， 这 种 能 力 会 直接 影响 公司 在 商业 上 的 成 败 。 现 在 类 似 Hadoop @ 
这 样 的 系统 能 够 为 公司 提供 存储 和 处 理 PB 级 数据 的 能 力 ， 随 着 新 机 器 
学 习 算 法 的 不 断 发 展 ， 收 集 更 多 数据 的 需求 也 在 与 日 俱 增 。 


以 前 ， 因 为 缺乏 划算 的 方式 来 存储 所 有 信息 ， 很 多 公司 会 忽略 某 些 
数据 源 ， 但 是 现在 这 样 的 处 理 方式 会 让 公司 丧失 竞争 力 。 存 储 和 分 析 每 
一 个 数据 点 的 需求 在 不 断 增 长 ， 这 种 需求 的 增长 直接 导致 各 公司 电子 丙 
务 平台 产生 了 更 多 的 数据 。 


过 去 ， 唯 一 的 选择 就 是 将 收集 到 的 数据 删 减 后 保存 起 来 ， 例 如 只 保 
留 最 近 N 天 的 数据 。 然 而 ， 这 种 方法 只 在 短期 内 可 行 ， 它 无 法 存储 几 个 
月 或 几 年 收集 到 的 所 有 数据 ， 因 此 建议 : 构建 一 种 数学 模型 覆盖 整个 时 
间 段 或 者 改进 一 个 算法 ， 重 跑 以 前 所 有 的 数据 ， 以 达到 更 好 的 效果 。 


对 于 海量 数据 的 重要 性 ，Ralph Kimball 博 士 指出 @ : 

















“数据 资产 会 取代 20 世 纪 传统 有 形 资产 的 地 位 ， 成 为 资 
PT ii Ae BAER A EBT” 


“数据 的 价值 已 经 超越 了 传统 企业 广泛 认同 的 价值 边 


Google 和 Amazon 是 认识 到 数据 价值 的 典范 ， 它 们 已 经 开始 开发 满 
中 自己 业务 需求 的 解决 方案 。 例 如 ，Google 在 一 系列 的 技术 出 版 物 中 描 
述 了 基于 商业 硬件 的 可 扩展 的 存储 和 处 理 系 统 。 开 源 社区 利用 Google 的 
这 些 思想 实现 了 开源 Hadoop 项 目的 两 个 模块 : HDFS 和 MapReduce。 


Hadoop 擅 长 存储 任意 的 、 半 结构 化 的 数据 ， 其 至 古 非 结构 化 的 数 
据 ， 可 以 帮助 用 户 在 分 析 数 据 的 时 候 决 定 如 何 解释 这 些 数据 ， 同 样 允 许 
ee 一 旦 用 户 更 新 了 算法 ， 只 需要 重新 分 析 
Mz, HE 。 


H Rf Hadoop) LPMA MA A ERARA, EAH ehk 
了 数据 存储 的 无 限 空间 ， 文 持 用 户 在 恰当 的 时 候 存 储 和 获取 数据 ， 并 且 
针对 大 文件 的 存储 、 批 量 访问 和 流 式 访问 做 了 优化 。 这 使 得 用 户 对 数据 
的 分 析 变 得 简单 快捷 ， 但 是 用 户 同 样 需 要 访问 分 析 后 的 最 终 数据 ， 这 种 
需求 需要 的 不 是 批量 模式 而 是 随机 访问 模式 ， 这 种 模式 相对 于 在 数据 库 
系统 来 说 ， 相 当 于 一 种 全 表 扫 描 和 使 用 索引 。 


通常 用 户 在 随机 访问 结构 化 数据 的 时 候 都 会 查询 数据 库 。RDBMS 
在 这 方面 最 为 突出 ， 但 是 也 有 一 些 少 量 的 有 差异 的 实现 方式 ， 比 如 面 问 
对 象 的 数据 库 。 大 多 数 RDBMS 一 直 遵 守 科 德 十 二 定律 (Codd’s 12 
rules) 由 ， 这 个 定律 对 于 RDBMS 来 说 是 刚性 标准 ， 并 且 由 于 RDBMS 的 
底层 架构 是 经 过 仔细 研究 的 ， 所 以 在 相当 长 的 一 段 时 间 里 这 种 架构 都 不 
会 有 明显 的 改变 。 近 年 来 出 现 的 各 种 处 理 方法 ， 如 列 式 存储 的 
(column-oriented〉 数据 库 和 大 规模 并 行 处 理 (Massively Parallel 
Processing, MPP) 数据 库 ， 表 明 业 界 重 新 思考 了 技术 方案 以 满足 新 的 
工作 负载 ， 但 是 大 多 数 解 决 方案 仍旧 是 基于 科 德 十 二 定律 来 实现 的 ， 并 
没有 打破 传统 的 法 则 。 















































列 式 存储 数据 库 
列 式 存 储 数 据 库 以 列 为 单位 聚合 数据 ， 然 后 将 列 值 顺 





序 地 存 入 磁盘 ， 这 种 存储 方法 不 同 于 行 式 存储 的 传统 数据 
库 ， 行 式 存 储 数据 库 连 续 地 存储 整 行 。 图 1-1 形 象 地 展示 了 
列 式 存 储 和 行 式 存储 的 不 同 物理 结构 。 


列 式 存 储 的 出 现 主要 基于 这 样 一 种 假设 : 对 于 特定 的 
碍 询 ， 不 是 所 有 的 值 都 是 必需 的 。 尤 其 是 在 分 析 型 数据 库 
里 ， 这 种 情形 很 常见 ， 因 此 需要 选择 一 种 更 为 合适 的 存储 
模式 。 


在 这 种 新 型 的 设计 中 ， 减少 VO 只 是 众多 主要 因素 之 
一 ， 它 还 有 其 他 的 优点 ， 因 为 列 的 数据 类 型 天 生 是 相似 
的 ， 即 便 人 逻辑 上 每 一 行 之 间 有 轻微 的 不 同 ， 但 仍旧 比 按 行 
存储 的 结构 聚集 在 一 起 的 数据 更 利于 压缩 ， 因 为 大 多 数 的 
压缩 算法 只 关注 有 限 的 压缩 窗口 。 














像 增 量 压缩 或 前 级 压缩 这 类 的 专业 算法 ， 是 基于 列 存 
储 的 类 型 定制 的 ， 因 而 大 幅度 提高 了 压缩 比 。 更 好 的 压缩 
比 有 利于 在 返回 结果 时 降低 带宽 的 消耗 。 
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图 1-1 列 式 存储 结构 与 行 式 存储 结构 


值得 注意 的 是 ， 从 典型 RDBMS 的 角度 来 看 ，HBase 并 不 是 一 个 列 式 
存储 的 数据 库 ， 但 是 它 利用 了 磁盘 上 的 列 存储 格式 ， 这 也 是 RDBMSs 与 
HBase 最 大 的 相似 之 处 ， 因 为 HBase 以 列 式 存储 的 格式 在 磁盘 上 存储 数 
据 。 但 它 与 传统 的 列 式 数据 库 有 很 大 的 不 同 ; 传统 的 列 式 数据 库 比 较 适 
有 
子 5 


如 今 数 据 的 产生 速度 比 几 年 以 前 已 经 有 了 迅猛 的 增长 ， 随 着 全 球 化 
步伐 加 快 ， 这 个 增长 速度 只 会 越 来 越 迅 独 ， 由 此 所 产生 的 数据 处 理 问题 
也 会 越 来 越 严 峻 。 像 Google、Amazon、eBay 和 Facebook 这 样 网 站 的 用 
户 已 经 覆盖 到 了 地 球 上 的 绝 大 多 数 人 。 全 球 化 网 络 应 用 (planet-size 











web application) 的 概念 已 经 形成 ， 在 这 种 背景 下 ， 企 业 使 用 HBase 更 合 
ce 


举例 来 说 ，Facebook 每 天 增 量 存储 到 它们 Hadoop 集 群 的 数据 量 超过 
15 TB ， 并 且 随 后 会 对 所 有 这 些 数据 进行 处 理 。 这 些 数据 一 部 分 是 点 
击 流 日 志 ， 用户 点 击 了 它们 的 网 站 或 点击 了 使 用 Facebook 提 供 的 社交 插 
件 的 网 站 ， 每 一 步 点 击 操作 都 会 被 记录 并 保存 ， 这 非常 适合 以 批 处 理 的 
模式 ， 为 预测 和 推荐 系统 构建 机 器 学 习 模 型 。 


Facebook 还 有 一 个 实时 组 件 ， 就 是 它们 的 消 因 系统， 其 中 包括 聊 
天 、 涂 鸦 墙 和 电子 邮件 ， 每 个 月 会 产生 超过 1350 亿 条 数据 © , FJL 
个 月 之 后 便 会 产生 一 个 量 级 庞大 的 尾部 数据 ， 并 且 这 些 尾部 数据 需要 被 
有 效 地 处 理 。 尺 管 电子 邮件 中 占用 存储 量 较 大 的 部 分 (如 附件 ) a 
储 在 二 级 系统 中 ， 但 这 些 消 息 产 生 的 数据 量 还 是 令 人 难以 置信 的 。 

以 Facebook 的 数据 产生 条 目 为 基础 ， 假 如 按 Twitter 中 的 每 条 数据 占用 
140 字 节 来 计算 ，Facebook 每 个 月 将 会 产生 超过 17 TB 的 数据 ， 在 将 这 些 
现存 的 系统 每 个 月 也 要 处 理 超 过 25 TB 的 数据 。 











目前 在 少数 的 重点 行业 中 ， 面 向 Web 业 务 的 公司 收集 的 数据 量 也 在 
不 断 增 长 。 


金融 
如 股票 涨 跌 产 生 的 数据 。 
生物 信息 学 


如 全 球 生 物 多 样 性 信息 机 构 (Global Biodiversity Information 
Facility, http:/www.gbif.org/ ) o 


智能 电网 
如 OpenPDC ( http://openpdc.codeplex.com/ ) 项 目 。 
销售 
如 销售 终端 “POS 机 〉 产生 的 数据 ， 或 者 是 股票 系统 、 库 存 系统 。 


基因 组 学 


{Crossbow ( http://bowtie-bio.sourceforge.net/crossbow/index.shtml 
) 项 目 。 


移动 电话 服务 、 苗 事 、 环 境 工 程 
也 产生 了 海量 的 数据 。 


有 效 存 储 PB 级 的 数据 并 能 高 效 地 检索 和 更 新 并 不 是 一 件 容 易 的 事 
情 。 下 面 深入 探讨 一 下 我 们 将 面临 的 挑战 。 





12 关系 数据 库 系 统 的 问题 


RDBMS 在 设计 和 实现 商业 应 用 方面 扮演 了 一 个 不 可 或 缺 的 角色 
(至 少 在 可 预见 的 未 来 仍旧 如 此 ) 。 只 要 用 户 需 要 保留 用 户 、 产 品 、 会 
话 、 订 单 等 信息 ， 就 会 采用 一 些 存储 后 端 为 前 端 应 用 服务 器 提供 持久 化 
数据 的 服务 。 这 种 结构 非常 适合 有 限 的 数据 量 ， 但 对 于 数据 急剧 增长 的 
情况 ， 这 种 结构 就 显得 力不从心 了 。 


以 我 们 之 前 提 到 的 HBase 短 网 址 (HBase URL Shortener) 服务 一 一 
Hush 为 例 。 假 设 要 构建 一 个 初始 就 能 支持 几 生 个 用 户 的 系统 ， 并 且 要 节 
省 成 本 ， 换 句 话 说 就 是 使 用 免费 软件 。 这 种 经 典 和 案例 束 可 以 使 用 开源 的 
LAMP © 快速 地 搭建 一 个 原型 。 


关系 数据 库 模 型 通过 用 外 键 关 联 ur1L 2. shorturl 表 和 click 
表 ， 规 范 了 存 入 user 表 的 数据 。 其 中 这 些 数据 表 都 有 索引 ， 可 以 保证 你 
既 能 通过 short ID 检索 到 URL， 又 能 通过 username 检索 到 用 户 。 如 
果 需 要 找 出 一 个 特定 用 户 列 表 的 所 有 短 址 URL， 可 以 运行 一 个 SQL 的 
JOIN 语句 关联 这 两 张 表 ， 得 到 一 个 全 面 的 URL 表 ， 其 中 不 仅 包括 短 址 
URL， 还 包括 所 需 的 用 户 明细 。 


此 外 ， 还 可 以 利用 数据 库 内 置 的 功能 ， 如 存储 过 程 〈stored 
procedure) 。 当 数据 系统 需要 始终 保证 多 张 表 的 数据 一 致 性 时 ， 可 以 利 
用 存储 过 程 来 解决 多 个 客户 端 同时 更 新 数据 的 一 致 性 问题 。 


事务 (transaction) 提供 了 原子 性 跨 表 更 新 数据 的 特性 ， 可 以 让 修 
改 同时 可 见 或 同时 不 可 见 。RDBMS 提 供 了 所 谓 的 ACID © 特性 ， 这 意味 
者 用 户 数据 是 强 一 致 性 的 〈 在 稍 后 的 “一 致 性 模型 ”中 有 详细 介绍 ) 。 参 
照 完整 性 (referential integrity) 负责 约束 不 同 的 表 结 构 之 间 的 关系 ， 利 
用 特定 域 语 言 ， 即 SQL， 能 够 写 出 任意 复杂 的 查询 语句 。 最 终 ， 用 户 不 
需要 关心 实际 上 数据 是 怎样 存储 的 ， 只 需要 关心 更 高 层次 的 概念 ， 例 
如 ， 表 结构 ， 表 结构 在 应 用 程序 中 提供 了 非常 固定 的 访问 模型 。 


通 第 这 种 模式 的 设计 能 在 较 长 的 一 段 时 间 里 满足 需求 。 如 果 足 够 六 
运 ， 你 可 能 会 成 为 下 一 个 互联 网 上 的 热点 ， 每 天 有 越 来 越 多 的 用 户 加 入 
你 的 网 站 。 但 随 着 你 网 站 用 户 数 量 的 增加 ， 共 至 数据 库 服务 器 的 压力 也 
会 越 来 越 大 。 增 加 应 用 服务 圳 的 数量 相对 来 说 比较 容易 ， 因 为 应 用 服务 


























器 之 间 是 共享 中 央 数 据 库 的 ， 但 随 着 共享 中 央 数 据 库 的 CPU 和 LO 负载 
的 上 升 ， 你 将 很 难 预 测 你 能 承受 这 种 增 速 度 多 久 。 


减少 压力 的 第 一 步 是 增加 用 于 并 行 读 取 的 从 服务 器 ， 将 读 写 分 离 。 
这 种 方案 保留 了 一 个 主 数据 库 服务 器 ， 但 是 这 个 主 数据 库 服 务 器 现在 只 
服务 于 写 请 求 ， 这 样 做 主要 是 考虑 到 网 站 的 请 求 主要 由 用 户 浏览 产生 ， 
因此 写 请 求 远 少 于 读 请 求 。 如 果 这 个 方案 也 因 用 户 数 的 持续 增加 而 失败 
了 ， 或 者 降低 了 系统 的 性 能 ， 又 该 怎么 办 呢 ? 


下 一 步 常 见 的 做 法 是 增加 缓存 ， 如 Memcached 2 。 现 在 可 以 将 读 操 
作 接 入 到 高 速 的 在 内 存 中 缓存 数据 的 系统 中 ， 但 是 这 种 方案 无 法 保证 数 
据 一 致 性 ， 因 为 用 户 更 新 数据 到 数据 库 ， 而 数据 库 并 不 会 主动 更 新 缓存 
系统 中 的 数据 ， 所 以 需要 尽 可 能 快 地 同步 缓存 和 数据 库 视 图 ， 把 更 新 组 
存 数据 与 更 新 数据 库 数 据 的 时 间 差 最 小 化 。 


里 然 这 种 方案 能 够 缓解 读 请 求 的 压力 ， 但 是 写 请 求 压力 的 增加 问题 
还 是 没有 得 到 解决 。 一 旦 主 数据 库 服务 器 写 性 能 下 降 ， 可 以 把 主 服务 器 
换 成 加 强 服 务 器 ， 即 垂直 扩容 ， 让 加 强 服 务 器 使 用 更 多 的 内 核 、 更 多 的 
内 存 、 更 快 的 磁盘 .…… 总 之 ， 与 初始 的 主 服务 器 相 比 要 花费 更 多 的 金 
钱 。 同 时 值得 注意 的 是 ， 用 户 如 果 已 经 选择 了 主 从 的 配置 方案 ， 就 必须 
要 让 从 服务 器 的 性 能 与 主 服务 器 同样 强 ， 人 否则 从 服务 器 的 更 新 速度 就 会 
跟 不 上 主 服务 器 的 更 新 速度 ， 这 样 增加 一 倍 到 两 倍 的 成 本 ， 甚 至 更 多 。 


伴随 着 网 站 受 欢 迎 程度 增加 ， 网 站 会 需要 增加 更 多 新 功能 ， 而 这 些 
新 功能 无 疑 都 会 转化 为 后 台数 据 库 的 查询 语句 。 以 前 顺利 执行 的 SQL 
JOIN 语句 执行 突然 变 慢 了， 或 是 干脆 无 法 执行 ， 这 时 候 束 不 得 不 采用 
逆 范 式 化 存储 结构 。 如 果 情 况 越 来 越 粮 ， 残 不 得 不 集 止 使 用 存储 过 程 ， 
因为 存储 过 程 最 后 会 慢 得 无 法 执行 。 本 质 上 讲 ， 减 少数 据 库 中 的 存储 数 
据 才 能 优化 访问 。 


所 以 随 痢 用 户 越 来 越 多 ， 负 载 会 不 断 提 高 ， 合 乎 逻辑 的 方式 就 是 不 
时 地 预先 实现 最 昂贵 的 查询 方案 ， 从 而 给 用 户 提 供 更 快 的 数据 服务 。 最 
终 ， 不 得 不 放弃 辅助 索引 的 使 用 ， 原 因 惑 是 数据 量 增 大 的 同时 ， 索 引 量 
也 大 到 了 足以 让 数据 库 的 性 能 直线 下 降 。 最 后 所 能 提供 的 查询 模式 只 剩 
下 了 按照 主键 查询 。 


这 时 该 怎么 办 ?如 果 人 负载 在 未 来 的 几 个 月 里 预期 会 增加 一 个 数量 级 
或 更 多 又 该 怎么 办 ?此 时 用 户 可 以 考虑 将 数据 分 区 (sharding〉 到 多 个 





















































数据 库 中 ， 但 是 采用 此 方案 会 使 运 维 操作 变 成 囊 楚 ， 而 且 代 价 非 常 昂 
贵 ， 因 此 也 不 是 最 合理 的 解决 方案 。 但 从 本 质 来 讲 ， 采 用 RDBMS 也 是 
因为 没有 其 他 可 以 选择 的 方案 。 


分 区 


分 区 Csharding) 主要 描述 了 逻辑 上 水 平 划分 数据 的 方 
和 案 。 这 个 方案 的 特 氮 是 将 数据 分 文件 或 分 服务 器 存储 ， 而 
不 是 连续 存储 。 


数据 的 分 区 是 在 固定 范围 内 实施 的 : 在 传 入 数据 之 
前 ， 必 须 提前 划分 好 数据 的 存储 范围 ， 如 果 一 个 水 平 划分 
的 压力 超过 其 所 能 提供 的 容量 ， 束 需要 将 数据 重 分 区 
(reshard) 并 迁移 数据 。 


重 分 区 并 迁移 数据 是 非常 消耗 资源 的 操作 ， 等 同 于 数 
据 重 做 。 需 要 重新 划分 边界 然后 横向 拆 分 (split) 。 大 规 
模 的 复制 操作 会 消耗 大 量 的 VO 资源 ， 同 时 还 会 临时 性 地 增 
加 存储 需求 。 在 对 数据 重 分 区 的 过 程 中 ， 客 户 端 应 用 仍然 
会 有 更 新 操作 要 执行 ， 不 过 此 时 的 更 新 操作 受 重 分 区 的 影 
啊 会 执行 得 非常 慢 。 








可 以 采用 虚拟 分 区 〈virtual shard) 的 方式 来 减少 这 种 
资源 消耗 ， 虚 拟 分 区 按照 关键 词 定义 范围 较 大 的 数据 分 
区 ， 每 个 服务 器 加 载 同 等 数量 的 数据 分 区 。 但 是 在 新 增 服 
务 器 的 时 候 ， 需 要 重新 加 载 数 据 分 区 到 新 服务 器 ， 并 且 这 
个 过 程 仍旧 需要 将 数据 迁移 到 新 服务 器 。 





分 区 是 简单 的 完全 脱离 用 户 操作 的 事后 操作 ， 如 果 没 


有 数据 库 的 支持 ， 可 能 会 对 生产 系统 造成 严重 破坏 。 


对 于 关系 数据 库 系统 的 问题 就 讲 到 这 里 ， 客 观 地 讲 ，RDBMS 已 经 
在 大 量 的 公司 里 使 用 ， 并 形成 了 较 大 规模 的 技术 体系 。 例 如 ， 
Facebook、Google 都 已 经 大 规模 地 使 用 了 MySQL， 因 为 MySQL 的 安 闭 
和 使 用 都 已 经 非常 简洁 ， 相 关 的 参考 资料 和 范例 也 非常 充分 。 这 个 数据 
库 适 合 特定 场景 的 业务 ， 并 且 短 期 内 不 会 被 取代 。 这 里 有 个 问题 是 : 如 
果 你 想 开 发 一 个 新 产品 ， 并 且 在 设计 阶段 就 已 经 预料 到 系统 折 展 速度 非 
常 快 ， 那 么 ， 你 是 希望 所 有 的 功能 都 可 用 ， 还 是 使 用 某 些 有 一 定制 约 的 


1.3 ” 非 关 系 型 数据 库 系 统 Not-Only-SQL〔 简 称 
NoSQL) 

过 去 的 四 五 年 时 间 里 ， 为 了 解决 问题 ， 创 新 的 前 进步 伐 由 缓慢 变 得 
出 奇 得 快 ， 好 像 每 周 都 会 发 布 新 的 框架 和 项 目 来 满足 需求 。 我 们 看 到 了 
所 谓 的 NoSQL 解 诀 方 案 问 世 了 ，NoSQL 是 Eric Evans 针 对 Johan 
0 的 “为 新 兴 的 新 数据 存储 空间 命名 ”问题 而 创造 的 一 个 
词 。 

正 是 因为 这 类 新 产品 还 没有 合适 的 名 称 ，NoSQL 一 举 成 名 。 在 激烈 
的 讨论 中 ， 它 被 认为 是 “SQL” 的 克星 _， 或 者 说 ， 它 给 仍旧 考虑 使 用 传 
统 RDBMS 的 人 这 来 了 瘟疫 .…… 只 是 开 个 玩笑 ! 
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”实际 上 ， 为 特定 的 问题 制定 差异 化 的 专用 解决 方案 
的 想法 并 不 新 鲜 。 像 Berkeley DB、Coherence、GT.M 这 样 的 
系统 ， 以 及 面 癌 对 象 的 数据 库 系 统 都 已 经 出 现 了 好 多 年 ， 有 
些 甚至 都 可 以 追溯 到 20 世 纪 80 年 代 初 ， 从 定义 上 来 看 ， 它 们 
都 属于 NoSQL 。 











标示 符号 化 Ctagword) 实际 上 是 一 个 不 错 的 选择 : 最 新 的 存储 系 
统 不 提供 通过 SQL 和 查询 数据 的 手段 ， 只 提供 一 些 比较 简单 的 、 类 似 于 
API 接 口 的 方式 来 存 取 数 据 。 

但 是 ， 也 有 一 些 工 具 为 NoSQL 数 据 存储 提供 了 SQL 语言 的 入 口 ， 用 
于 执行 一 些 关 系数 据 库 中 常用 的 复杂 条 件 查 询 。 因 此 ， 从 查询 方式 上 的 
限制 来 说 ， 关 系 型 数据 库 和 非 关 系 型 数据 库 并 没有 严格 的 区 分 。 


实际 上 两 者 在 底层 上 是 有 区 别 的， 尤其 涉及 到 模式 或 者 ACID 事 务 














特性 时 ， 因 为 这 与 实际 的 存储 架构 是 相关 的 。 很 多 这 一 类 的 新 系统 首先 
做 的 事情 是 :抛弃 一 些 限制 因 系 以 提升 扩展 性 (这 一 点 会 在 1.3.1 市 讨 

W) 。 例 如 ， 它 们 通 第 不 文 持 事务 或 辅助 索引 。 更 重要 的 是 ， 这 一 类 系 
统 是 没有 固定 模式 的 ， 可 以 随 着 应 用 的 改变 而 灵活 变化 。 
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在 这 本 书 里 ， 我 们 经 常会 提 到 一 致 性 问题 ， 所 以 有 必 
要 在 这 里 对 它 稍 加 介绍 。 一 开始 的 一 致 性 是 保证 数据 库 客 
户 站 操作 的 正确 性 ， 数 据 库 必 须 保 证 每 一 步 操 作 都 是 从 一 
个 一 致 的 状态 到 下 一 个 一 致 的 状态 。 系 统 没有 明确 地 指定 
如 何 实现 这 个 功能 ， 以 便 系统 可 以 有 多 种 选择 。 最 终 ， 系 
统 要 选择 是 进入 下 一 个 一 至 的 状态 ， 人 还 是 回 退 到 上 一 个 一 
致 的 状态 ， 从 而 保证 一 致 性 。 





一 致 性 可 以 按照 严格 程度 由 强 到 弱 分 类 ， 或 者 是 按照 
对 客户 端的 保证 程度 分 类 ， 下 面 是 一 个 非 正 式 的 分 类 列 
表 。 


严格 一 致 性 ， 数 据 的 变化 是 原子 的 ， 一 经 改变 即时 生 
效 ， 这 是 一 致 性 的 最 高 形式 。 


顺序 一 致 性 : 每 个 客户 并 看 到 的 数据 依照 它们 操作 执 
行 的 顺序 而 变化 。 


因果 一 致 性 ， 客户 端 以 因果 关系 顺序 观察 到 数据 的 改 
变 . 


最 终 一 致 性 ， 在 没有 更 新 数据 的 一 段 时 间 里 ， 系 统 将 
通过 广播 保证 副本 之 间 的 数据 一 致 性 。 


弱 一 致 性 : 没有 做 出 保证 的 情况 下 ， 所 有 的 更 新 会 通 
过 广播 的 形式 传递 ， 展 现 给 不 同 客户 端的 数据 顺序 可 能 不 
一 样 。 





采用 最 终 一 致 性 策略 的 系统 还 可 以 细 分 为 几 个 子 类 ， 
并 且 这 些 子 策略 还 可 以 共存 。 亚 马 逊 的 首席 技术 官 Werner 
Vogels 在 一 篇 名 为 “Eventually Consistent” 的 文章 中 列举 了 这 
几 个 子 类 。 这 篇 文章 还 谈 到 了 CAP 定 理 (CAP theorem) ® 
， 甚 中指 出， 一 个 分 布 式 系统 只 能 同时 实现 一 致 性 、 可 用 
性 和 分 区 容忍 性 (或 分 区 容错 性 ) 中 的 两 个 。CAP 定 理 是 
热点 话题 ， 不 过 它 不 是 区 分 分 布 式 系统 的 唯一 方法 ， 但 
CAP 定 理 指出 了 ， 开 发 一 套 同时 满足 以 上 需求 的 分 布 式 系 
统 是 比较 困难 的 。 例 如 ，Vogels 提 到 : 





“在 一 系列 的 研究 结果 里 发 现 ， 在 较 大 型 
的 分 布 式 系统 中 ， 由 于 网 络 分 陋 ， 一 致 性 与 可 
用 性 不 能 同时 满足 。 这 意味 着 三 个 要 素 最 多 只 
能 同时 实现 两 个 ， 不 可 能 三 者 兼顾 ， 放 宽 一 致 
PER EER 2S HEFt ASCH BY AA PE..... FEAT — BE 
意味 着 系统 需要 牺牲 一 定 的 可 用 性 。” 











放宽 一 致 性 来 提高 系统 可 用 性 是 一 个 非常 有 效 的 提 
议 。 不 过 这 种 方案 会 强制 让 应 用 层 去 解决 一 致 性 的 问题 ， 
因此 也 会 增加 系统 的 复杂 度 。 


各 种 非 关系 型 数据 库 有 许多 共同 的 特性 ， 同 时 这 其 中 的 许多 特性 与 
传统 的 存储 方案 也 有 很 多 共同 点 。 因 此 新 系统 并 不 是 革命 性 的 产品 ， 从 
工程 的 角度 来 看 更 像 是 产品 的 进化 。 


假使 连 Memcached 这 样 的 项 目 都 划 入 到 NoSQL 苑 畴 的 话 ， 那 束 成 了 
只 要 不 是 RDBMS 就 可 以 认为 是 NoSQL 。 这 个 说 法 导致 了 错误 的 二 分 
法 ， 二 分 法 掩盖 了 这 些 系 统 提供 的 令 人 振 香 的 技术 可 行 性 。 在 NoSQL 范 
畴 内 ， 还 有 很 多 的 维度 可 以 区 分 系统 的 特定 优势 所 在 。 


1.3.1 维度 


让 我 们 来 挑 几 种 维度 简单 介绍 一 下 。 需 要 注意 的 是 ， 列 举 的 这 些 维 
度 并 不 全 面 ， 并 且 这 也 不 是 唯一 的 区 分 方式 。 


数据 模型 
数据 有 多 种 存储 的 方式 ， 包 括 键 / 值 对 《类 似 于 HashMap) 、 半 结构 


化 的 列 式 存储 和 文档 结构 存储 。 用 户 的 应 用 如 何 存 取 数 据 ? 同时 数据 模 
式 是 人 否 随 看 时 间 而 变化 ? 
存储 模型 

内 存 还 是 持久 化 ? 坦率 来 说 做 出 这 个 决定 并 不 难 ， 其 主要 原因 是 ， 
我 们 可 以 将 其 与 RDBMS 进 行 对 比 ， 它 们 通常 持久 化 存储 数据 到 磁盘 
中 。 即 使 需要 的 是 纯粹 的 内 存 模式 ， 也 仍旧 有 其 他 方案 。 一 旦 考 碟 持久 
化 存储 ， 就 需要 考虑 选择 的 方案 是 否 会 影 啊 到 访问 模式 ? 
一 致 性 模型 

严格 一 致 性 还 是 最 终 一 致 性 ? 问题 是 存储 系统 如 何 实现 它 的 目标 : 
必须 降低 一 致 性 要 求 吗 ? 虽然 这 种 问题 很 粗浅 ， 但 是 在 特定 的 场景 中 会 
产生 巨大 影响 。 因 为 一 致 性 可 能 会 影响 操作 延 时 ， 即 系统 啊 应 读 写 请 求 
的 速度 。 这 需要 权衡 投入 和 产 出 后 得 到 一 个 折 中 结果 。 © 


物理 模型 


分 布 式 模式 还 是 单机 模式 ? 这 种 架构 看 起 来 像 什么 ? 是 仅仅 运行 在 
单个 机 器 上 ， 还 是 分 布 在 多 台 机 器 上 ， 但 分 布 及 扩展 规则 由 客户 端 管 











理 ， 换 句 话 说 ， 由 用 户 上 自己 的 代码 管理 ? 也 许 分 布 式 模 式 仅仅 是 个 事后 
的 工作 ， 并 且 只 会 在 用 户 需 要 扩展 系统 时 产生 问题 。 如 果 系 统 提 供 了 一 
定 的 扩展 性 ， 那 么 需要 用 户 采 取 特 定 的 操作 吗 ? 最 简 蛙 的 解决 方案 就 古 
一 次 增加 一 合 机 器 ， 并 且 设 置 好 分 区 《〈 这 点 对 于 不 文 持 虚 拟 分 区 的 系统 
非常 重要 ) ， 设 置 时 需要 考虑 同时 提高 每 个 分 区 的 处 理 能 力 ， 因 为 系统 
的 每 个 部 分 都 需要 提供 均衡 的 性 能 。 


读 / 写 性 能 


用 户 必须 了 解 目 己 的 应 用 程序 的 访问 模式 。 是 读 多 写 少 ? 还 是 读 写 
相当 ? 或 者 是 写 多 读 少 ? 是 用 范围 扫描 数据 好 ， 还 是 用 随机 读 请 求 效 据 











更 好 ? 有 些 系 统 仅仅 对 这 些 情 况 中 的 一 种 文 持 得 非常 好 ， 有 些 系统 则 对 
各 种 情况 都 提供 了 很 好 的 文 持 。 
辅助 索引 





辅助 索引 支持 用 户 按 不 同 的 字段 和 排序 方式 来 访问 表 。 这 个 维度 履 
关 了 菏 些 完全 没有 辅助 索引 文 持 且 不 保证 数据 排序 的 系统 〈 类 似 于 
HashMap， 即 用 户 需要 知道 数据 对 应 键 的 值 ) ， 到 茶 些 可 能 通过 外 部 手 
段 简 单 文 持 这 些 功 能 的 系统 。 如 宁 存 储 系统 不 提供 这 项 功能 ， 用 户 的 应 
用 可 以 应 对 或 目 己 模拟 辅助 索引 吗 ? 


故障 处 理 


机 器 会 月 溃 是 一 个 客观 存在 的 问题 ， 需 要 有 一 套数 据 迁 移 方案 来 应 
对 这 种 情况 〈 关 于 这 一 点 可 以 参考 在 “一 致 性 模型 ”中 讨论 的 CAP 定 
理 ) 。 每 个 数据 存储 如 何 进 行 服务 器 故障 处 理 ? 故障 处 理 完 毕 之 后 是 否 
可 以 正常 工作 ? 这 与 之 前 讨论 的 “一 致 性 模型 维度 有 关系 ， 因 为 失去 一 
台 服 务 器 可 能 会 造成 数据 存储 的 空洞 Chole) ， 甚 至 使 整个 数据 存储 不 
可 用 。 如 果 蔡 换 掉 故障 服务 器 ， 那 么 恢复 100% 服 务 的 难度 有 多 大 ?从 
一 个 正在 提供 服务 的 集群 中 代 载 一 台 服 务 器 时 ， 也 会 遇 到 类 似 的 问题 。 


压缩 


当 用 户 需 要 存储 TB 级 的 数据 时 ， 尤 其 当 这 些 数据 兰 民 性 很 小 或 由 
可 读 性 文本 组 成 时 ， 压 缩 会 还 来 非常 好 的 效果 ， 即 能 节省 大 量 的 原始 数 
据 存 储 。 有 些 压缩 算法 可 以 将 此 类 的 数据 压缩 到 原始 文件 大 小 的 十 分 之 
一 。 有 可 选择 的 压缩 组 件 吗 ? 义 有 哪些 压缩 算法 可 用 ? 

















负载 均衡 
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变化 自动 均衡 处 理 能 力 的 系统 。 虽 然 这 样 不 能 完全 解决 该 问题 ， 但 是 也 
可 以 帮助 用 户 设计 高 读 写 厨 叶 量 的 程序 。 


原子 操作 的 读 -修改 - 写 


RDBMS 提 供 了 很 多 这 类 的 操作 (因为 它 是 一 个 集中 式 的 面 同 单 服 
务 器 的 系统 ) ， 但 这 些 操作 在 分 布 式 系统 中 较 难 实现 ， 这 些 操作 可 以 帮 
助 用 户 避 免 多 线程 造成 的 资源 竞争 ， 也 可 以 帮助 用 户 完 成 无 共享 应 用 服 
务 右 的 设计 。 有 了 这 些 比较 并 交换 (compare and swap, CAS) 操作 ， 
或 者 说 检查 并 设置 (check and set) 操作 ， 在 设计 系统 的 时 候 可 以 有 效 
地 降低 客户 端的 复杂 度 。 


加 锁 、 等 竺 和 和 死 锁 

众所周知 ， 复 杂 的 事务 处 理 ， 如 两 阶段 提交 ， 会 增加 多 个 客 忆 器 竞 
争 同一 个 资产 的 可 能 性 。 最 精 糕 的 情况 束 是 死 锁 ， 这 种 情况 也 很 难 解 
> 0 0 
SEAL? 























Ek 
一 一 全 稍 后 我 们 会 回顾 这 些 维度 ， 看 看 HBase 适 合用 在 哪 
里 ， 其 优势 何在 。 现 在 需要 指出 的 是 ， 一 定 要 根据 实际 的 需 
求 来 仔细 选择 最 适合 的 维度 。 按 照 实 际 情况 来 设计 解决 方 

案 ， 要 知道 没有 硬性 规定 说 ，RDBMS 不 能 很 好 地 解决 的 问 
题 ，NoSQL 就 能 完美 解决 。 重 要 的 是 正确 地 评估 需求 ， 然 后 
再 做 出 明智 的 选择 ， 有 需要 的 话 甚至 可 以 采用 混合 使 用 的 方 


案 。 

















可 以 用 一 个 有 趣 的 词 来 形容 这 个 情况 一 一 阻抗 匹配 


(impedance match) ， 意 思 就 是 要 为 一 个 给 定 问题 找到 一 个 
理想 的 解决 方案 ， 除 了 使 用 通用 的 解决 方案 ， 还 应 该 知道 有 
什么 可 用 的 解决 方案 ， 从 而 找到 最 适合 于 解决 该 问题 的 系 
统 。 


1.3.2 可 扩展 性 


RDBMS 非 常 适 合 事 务 性 操作 ， 但 不 见长 于 超大 规模 的 数据 分 析 人 处 
理 ， 因 为 超大 规模 的 查询 需要 进行 大 范围 的 数据 记录 扫描 或 全 表 扫 描 。 
分 析 型 数据 库 可 以 存储 数 百 或 数 千 TB 的 数据 ， 在 一 台 服 务 器 上 做 查询 
工作 的 响应 时 间 ， 会 远 远 超过 用 户 可 接受 的 合理 响应 时 间 。 垂 直 扩 展 服 
务 器 性 能 ， 即 增加 CPU 核 数 和 磁盘 数目 ， 也 并 不 能 很 好 地 解决 该 问题 。 


EHARA E> RDBMS SAEM EMIRE, RSME 
增加 并 不 是 线性 关系 ， 准 确 地 说 ， 与 并 及 数目 的 平方 以 及 事务 规模 的 3 
次 方 甚至 5 次 方 相关 加 。 分 区 通常 是 一 个 不 切合 实际 的 解决 方案 ， 因 为 
它 需 要 客户 端 采 用 非常 复杂 的 方式 和 较 高 的 代价 来 维护 分 区 信息 。 


一 些 丙 业 RDBMS 也 解决 过 类 似 的 问题 ， 但 它们 往往 只 是 特定 地 解 
决 了 问题 的 茶几 个 方面 ， 更 重要 的 是 ， 它 们 非常 非常 的 昂贵 。 而 一 些 开 
源 的 RDBMS 解 决 方 案 中 ， 往 往 放弃 了 其 中 的 一 些 其 至 全 部 的 关系 型 特 
性 ， 如 辅助 索引 ， 来 换取 更 高 的 性 能 拓展 能 


问题 是 ， 为 了 性 能 而 一 直 放 弃 以 上 关系 型 特性 是 否 值 得 ?用 户 可 以 
反 范 式 化 〈 见 1.3.3 节 ) 数据 模型 来 避免 等 待 ， 并 且 可 以 通过 降低 锁 粒 度 
的 方式 来 尽量 避免 死 锁 。 数 据 增 长 时 ， 无 需 重 新 分 区 迁移 数据 并 内 磐 水 
平 扩展 性 的 方法 。 最 后 ， 用 户 还 要 面 对 容 错 和 数据 可 用 性 问题 ， 采 用 提 
高 扩展 性 的 机 制 ， 用 户 最 终 会 得 到 一 个 NoSQL 的 解决 方案 ， 更 确切 地 
说 ，HBase 可 以 满足 以 上 多 种 需求 。 


13.3 数据库 的 范式 化 和 反 范 陈 化 


不 同 的 规模 ， 经 党 需要 设计 不 同 的 系统 结构 ， 对 这 种 原则 的 最 佳 描 
We: 反 范 式 化 、 复 制 和 智能 的 主键 (Denormalization, Duplication, and 
































Intelligent Keys， 人 简称 DDI ，)。 这 残 需要 重新 思考 在 类 似 BigTable 的 存 
储 系统 中 如 何 才能 高 效 合理 地 存储 数据 。 


部 分 原则 是 采用 反 范 式 化 模式 ， 例 如 将 数据 复制 到 多 张 表 中 ， 这 样 
在 读 取 的 时 候 束 不 需 从 多 张 表 中 聚合 数据 了 。 或 者 预先 物化 所 需 的 视 
图 ， 一 次 优化 从 而 避免 进一步 的 处 理 来 提高 读 取 性 能 。 


这 一 主题 在 第 9 章 里 有 更 详细 的 介绍 ， 主 要 冰 述 了 如 何 充分 利用 
HBase 的 特性 去 解决 实际 问题 。 让 我 们 来 看 一 个 例子 ， 理 解 传统 的 关系 
数据 库 模 型 转 到 列 式 存储 的 HBase 的 几 点 基本 原则 。 


再 来 看 看 HBase 短 网 址 ， 即 Hush，Hush 人 允许 用 户 将 长 网 址 映射 为 短 
网 址 (short URL) ， 见 图 1-2 表 示 的 实体 关系 图 Centity relationship 
diagram，ERD， 简 称 ER 图 ) 。 在 附录 E © 中 可 以 查看 完整 的 SQL 模 
Ie 








eK fia 


username FK1 | userld datestamp 
credentials FK1 | shortld 
roles shortld category 
firstname refShortld | dimension 
lastname counter 
email 


description 
content 





图 1-2 ”Hush 模 式 的 实体 关系 


短 网 址 存储 在 shorturl 表 中 ， 用 户 可 以 点 击 短 网 址 来 链接 到 完整 
网 址 。 系 统 会 跟踪 每 次 反击， 记录 该 网 址 的 使 用 次 数 ， 还 会 记录 一 些 其 
他 信息 ， 例 如 ， 扣 击 该 链接 的 用 户 所 在 的 国家 。 这 些 信息 会 记录 
o 表 中 ， 这 个 表 的 功能 类 似 于 一 个 计数 器 ， 以 天 为 周期 统计 每 天 
I 访问 量 。 


用 户 信息 存储 在 user 表 中 ， 用 户 可 以 在 Hush 网 站 上 注册 并 创建 个 
人 短 网 址 列表 ， 同 时 也 可 以 在 此 网 站 上 增加 描述 。user 表 与 shorturl 
表 之 间 维 护 了 一 个 外 键 关 系 。 


系统 还 会 在 后 台 下 载 链接 到 的 页 面 ， 并 提取 一 些 TITLE 之 类 的 
HTML 标 签 。 将 整个 页 面 保存 下 来 的 目的 是 ， 供 后 续 的 寞 步 任 务 进行 处 
理 和 分 析 。 这 些 内 容 都 由 url 表 存 储 。 


每 个 链接 页 面 只 存储 一 份 ， 不 过 ， 由 于 许多 用 户 可 能 会 链接 同一 个 
长 网 址 ， 并 且 还 想 保存 他 们 自己 的 详细 信息 ， 例 如 ， 使 用 统计 信息 ， 
此 会 在 短 链接 表 中 创建 多 个 项 来 加 以 区 分 。 通 过 这 段 逻 辑 ， 将 ur1l 
表 、shorturl 表 和 click 表 关 联 在 了 一 起 。 


这 使 得 通过 统计 原始 的 短 网 址 标识 refshortId ， 就 可 以 统计 任意 
一 个 短 网 址 映射 到 同一 个 长 网 址 的 使 用 率 。shortId 和 refShortId F 
用 散 列 ID 的 方式 被 唯一 地 分 配给 了 短 网 址 。 例 如 ; 


http: //hush.1i/a23eg 





在 上 述 地 址 中 ， 散 列 ID 是 a23eg 。 


图 1-3 展 现 了 Hush 应 用 在 HBase 中 的 对 应 模式 。 每 个 短 网 址 都 存储 在 
独立 的 表 shorturl 中 ， 表 中 还 包含 了 使 用 统计 信息 ， 投 统计 时 间 范 围 
不 同 ， 存 放 于 不 同 的 列 族 中 ， 同 时 每 个 值 都 有 其 生存 期 〈time-to- 
live) 。 列 名 是 日 期 和 一 个 可 选 维度 后 缀 的 组 合 ， 例 如 国家 代码 ， 列 值 
则 是 对 应 计数 器 的 值 。 


下 载 下 来 的 页 面 和 提取 的 详细 信息 存储 在 url 表 中 ， 并 且 要 通过 压 
缩 最 大 限度 地 减少 存储 量 ， 因 为 存储 的 页 面 主要 是 HTML， 这 种 格式 本 
且 元 余 量 大 ， 并 且 包 含 了 大 量 文本 。 

















it: tment 


Table: url 


data: 一 
Family: [compressed] Columns: refShortld, title, description 
content: 
compressed) 


Table: user-shorturl 


username\xO0shortld 
n a o 


Table: user 


Family: a Columns: credentials, roles, firstname, lastname, email 


图 1-3 ”HBase 中 的 Hush 模 式 


系统 通过 user-shorturl 表 可 以 快速 查 到 指定 用 户 的 所 有 短 网 址 
标识 。 这 个 功能 被 用 在 用 户主 页 中 ， 只 要 用 户 一 登录 就 会 被 记录 下 
X. user 表 存 储 着 实际 用 户 的 详细 信息 。 


虽然 表 的 数量 相同 ， 都 是 4 个 ， 但 表 的 含义 发 生 了 变化 : clicks 表 
被 合并 到 了 shorturl 表 中 ， 统 计 列 使 用 日 期 为 列 键 ， 格 式 为 
YYYYMMDD， 例 如 ，20110502， 这 样 用 户 可 以 顺序 访问 数据 。 新 增 的 
user-shorturl 表 代 人 蔡 了 外 键 ， 使 查询 用 户 相关 信息 变 得 更 为 快捷 。 


有 非常 多 的 方法 来 转换 一 对 一 、 一 对 多 、 多 对 多 的 关系 ， 以 适应 


























HBase 的 的 层 染 构 。 这 种 简单 的 例子 有 多 种 实现 方式 ， 用 户 需 要 充分 理 
解 HBase 存 储 设计 的 潜在 能 力 ， 然 后 深思 熟 虑 地 决定 用 哪 一 种 实现 方 
TK 
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式 化 ， 同 时 也 可 以 避免 查询 时 采用 开销 很 大 的 JOIN 操作 聚合 数据 。 使 
用 智能 的 主键 可 以 控制 数据 怎样 去 存储 以 及 存储 在 什么 位 置 。 由 于 可 以 
使 用 行 键 的 部 分 内 容 进行 范围 检索 ， 行 键 作为 组 合 键 设计 时 ， 与 字典 序 
左 部 分 为 头 的 索引 效果 相似 。 因 此 ， 正 确 的 设计 能 够 使 性 能 不 会 因为 数 
据 增长 而 下 降 ， 例 如 当 数 据 条 目 从 10 条 增加 到 1000 万 条 时 ， 系 统 仍旧 可 
以 保持 相同 的 读 写 性 能 。 





1.4 结构 


本 节 首 先 介绍 HBase 的 架构 ， 然 后 介绍 一 些 关 于 HBase 起 源 的 背景 
资料 ， 之 后 将 介绍 其 数据 模型 的 一 般 概 仿 和 可 用 的 存储 API， 最 后 在 一 
个 更 高 的 层次 上 对 其 实现 细节 进行 分 析 。 
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2003 年 ，Google 发 表 了 一 篇 论文 ， 叫 “The Google File System” ( 
http:/abs.google.com/papers/gfs.html ) 。 这 个 分 布 式 文件 系统 简称 
GFS， 它 使 用 商用 硬件 集群 存储 海量 数据 。 文 件 系统 将 数据 在 节点 之 间 
见 余 复制 ， 这 样 的 话 ， 即 使 一 台 存 储 服务 器 发 生 故 障 ， 也 不 会 影响 数据 
的 可 用 性 。 它 对 数据 的 流 式 读 取 也 做 了 优化 ， 可 以 边 处 理 边 读 取 。 


不 入 ，Google 又 及 表 了 另外 一 篇 论文 ， 叫 "MapReduce: Simplified 
Data Processing on Large Clusters”， 人 参见 
http://labs.google.com/paper/mapreduce.html 。MapReduce 是 GFS 架 构 的 
一 个 补充 ， 因 为 它 能 够 充分 利用 GFS 集 群 中 的 每 个 商用 服务 器 提供 的 大 
量 CPU。MapReduce 加 上 GFS 形 成 了 处 理 海 量 数据 的 核心 力量 ， 包 括 构 
建 Google 的 搜索 索引 。 


不 过 以 上 描述 的 两 个 系统 都 缺乏 实时 随机 存 取 数 据 的 能 力 〈 意 味 着 
尚 不 足以 处 理 Web 服 务 ) 。GFS 的 妨 一 个 缺陷 束 是 ， 它 适合 存储 少许 非 
常 非常 大 的 文件 ， 而 不 适合 存储 成 干 上 万 的 小 文件 ， 因 为 文件 的 元 数据 
襄 姑 最 终 要 存储 在 主 节 点 的 内 存 中 ， 文 件 越 多 主 市 扣 的 压力 越 大 。 


因此 ，Google 和 尝试 去 找到 一 个 能 够 驱动 交互 应 用 的 解决 方案 ， 例 
如 ，Google 邮 件 或 者 Google 分 析 ， 能 够 同时 利用 这 种 基础 结构 、 依 靠 
GEFS 存 储 的 数据 元 余 和 数据 可 用 性 较 强 的 特点 。 存 储 的 数据 应 该 拆 分 成 
特别 小 的 条 目 ， 然 后 由 系统 将 这 些小 记录 聚合 到 非常 大 的 存储 文件 中 ， 
并 提供 一 些 索 引 排 序 ， 让 用 户 可 以 查找 最 少 的 磁盘 束 能 够 获取 数据 。 最 
它 应 该 能 够 及 时 存储 爬虫 的 结果 ， 并 跟 MapReduce 协 作 构 建 搜索 索 
引 。 


意识 到 RDBMS 在 大 规模 处 理 中 的 缺点 (8.1 节 会 针对 这 一 点 进行 深 
入 讨论 ) ， 工 程 师 们 开始 考虑 问题 的 其 他 切入 点 : 氛 弃 关系 型 的 特点 ， 

















采用 简单 的 API 来 进行 增 、 查 、 改 、 删 (Create, Read, Update, and 
Delete， 简 称 CRUD ) 操作， 再 加 一 个 扫描 函数 ， 在 较 大 的 键 范围 或 全 
表 范 围 上 迭代 扫 朱 。 这 些 努 力 的 成 采 最 终 在 2006 年 的 论文 “BigTable: A 
Distributed Storage System for Structured Data” 中 发 表 了 。 


“BigTable 是 一 个 管理 结构 化 数据 的 分 布 式 存储 系统 ， 
它 可 以 扩展 到 非常 大 ， 如 在 成 二 上 万 的 商用 服务 器 上 存储 
PB 级 的 数据 。.…… 一 个 稀 琉 的、 分 布 式 的 、 持 久 的 多 维 拓 
序 映射 。” 





强烈 建议 对 HBase 感 兴趣 的 人 去 阅读 这 篇 论文 ， 它 介绍 了 很 多 
BigTable 的 设计 原理 ， 用 户 最 终 都 能 在 HBase 中 找到 BigTable 的 影子 。 我 
们 会 借用 这 篇 论文 的 基本 概念 来 贯穿 我 们 的 这 本 书 。 


HBase 实 现 了 BigTable 存 储 架 构 ， 因 此 我 们 也 可 以 用 HBase 来 解释 每 
样 东 西 。 附 录 F 介 绍 了 两 者 之 间 的 不 同 。 
1.4.2 表 、 行 、 列 和 单元 格 


首先 ， 做 一 个 简要 总 结 : 最 基本 的 单位 是 列 〈column) 。 一 列 或 
多 列 形成 一 行 Cow) ， 并 由 唯一 的 行 键 Crow key) 来 确定 存储 。 反 
过 来 ， 一 个 表 (table) 中 有 香干 行 ， 其 中 每 列 可 能 有 多 个 版 本 ， 在 每 
一 个 单元 格 (cell〉 中 存储 了 不 同 的 值 。 


除了 每 个 单元 格 可 以 保留 耕 干 个 版 本 的 数据 这 一 点 ， 整 个 结构 看 起 
来 像 典型 的 数据 库 的 描述 ， 但 很 明显 有 比 这 更 重要 的 因素 。 


所 有 的 行 按 照 行 键 字典 序 进 行 排序 存储 。 例 1.1 展 现 了 如 何 通过 不 
同 的 行 键 增加 多 行 数据 。 














BLA 行 序 是 按照 行 键 的 字典 序 进行 排序 的 


hbase(main):001:@> scan 'table1' 

ROW COLUMN+CELL 

row-1 column=cf1: , timestamp=1297073325971 ... 
row-10 column=cf1: , timestamp=1297073337383 ... 
row-11 column=cf1: , timestamp=1297073340493 ... 
row-2 column=cf1: , timestamp=1297073329851 ... 


row-22 column=cf1: , timestamp=1297073344482 ... 
row-3 column=cf1: , timestamp=1297073333504 ... 
row-abc column=cf1: , timestamp=1297073349875 ... 
7 row(s) in 0.1100 seconds 





注意 ， 排 列 的 顺序 可 能 和 你 预期 的 不 一 样 ， 可 能 需要 通过 补 键 来 获 
得 正确 排序 。 在 字典 序 中 ， 是 按照 二 进 制 逐 字 节 从 左 到 右 依 次 对 比 每 一 
个 行 键 ， 例 如 ，row-1.… 小 于 row-2.. ， 因 此 ， 无 论 后 面 是 什么 ， 将 始终 
按照 这 个 顺序 排列 。 


按照 行 键 排序 可 以 获得 像 RDBMS 的 主键 索引 一 样 的 特性 ， 也 就 是 
说 ， 行 键 总 是 唯一 的 ， 并 且 只 出 现 一 次 ， 否 则 你 就 是 在 更 新 同一 行 。 虽 
然 BigTable 的 论文 里 只 考虑 了 行 键 单一 索引 ， 但 是 HBase 增 加 了 对 辅助 
索引 《〈 见 9.3 节 ) 的 支持 。 行 键 可 以 是 任意 的 字 节 数组 ， 但 它 并 不 一 定 
是 人 直接 可 读 的 。 


一 行 由 铬 干 列 组 成 ， 奉 干 列 又 构成 一 个 列 族 (column family) ， 这 
不 仅 有 助 于 构建 数据 的 语义 边界 或 者 局 部 边界 ， 还 有 助 于 给 它们 设置 某 
些 特性 (如 压缩 ) ， 或 者 指示 它们 存储 在 内 存 中 。 一 个 列 族 的 所 有 列 存 
储 在 同一 个 底层 的 存储 文件 里 ， 这 个 存储 文件 叫做 HFile 。 


列 族 需 要 在 表 创 建 时 就 定义 好 ， 并 且 不 能 修改 得 太 频 繁 ， 数 量 也 不 
能 太 多 。 在 当前 的 实现 中 有 少量 已 知 的 缺陷 ， 这 些 缺 陷 使 得 列 族 数量 只 
限于 几 十 ， 实 际 情况 可 能 还 小 得 多 (详情 见 第 9 章 ) 。 列 族 名 必须 由 可 
打印 字符 组 成 ， 这 与 其 他 名 字 或 值 的 命名 规范 有 显著 不 同 。 

常见 的 引用 列 的 格式 为 family:qualifier ，qualifier 是 任意 的 字 节 
数组 。 @ 与 列 族 的 数量 有 限制 相反 ， 列 的 数量 没有 限制 ， 一 个 列 族 里 
可 以 有 数 百 万 个 列 。 列 值 也 没有 类 型 和 长 度 的 限定 。 


图 1-4 用 可 视 化 的 方式 展现 了 普通 数据 库 与 列 式 HBase 在 行 设计 上 的 












































不 同 ， 行 和 列 没有 像 经 典 的 电子 表格 模型 那样 排列 ， 而 是 采用 了 标签 描 
述 (tag metaphor) ， 也 就 是 次， 信息 保存 在 一 个 特定 的 标签 下 。 


columnB column C column D 
(varchar) (boolean) (date) 





图 1-4 HBase 中 的 行 与 列 








”图 1-4 中 的 “NULL? ”表明 了 固定 模式 的 数据 库 在 没 
有 值 的 地 方 必须 存储 NULL 值 ， 但 是 在 HBase 的 存储 架构 中 ， 
可 以 干脆 省 略 整 个 列 ， 换 句 话 说 ， 空 值 是 没有 任何 消耗 的 ; 
它们 不 占用 任何 存储 空间 。 








所 有 列 和 行 的 信息 都 会 通过 列 族 在 表 中 定义 ， 关 于 这 一 点 我 们 在 下 
文 进行 讨论 。 


每 一 列 的 值 或 蛙 元 格 的 值 都 具有 时 间 惟 ， 上 默认 由 系统 指定 ， 也 可 以 
由 用 户 显 陈设 置 。 时 间 戳 可 以 被 使 用 ， 例 如 通过 不 同 的 时 间 惟 来 区 分 不 
同 版 本 的 值 。 一 个 单元 格 的 不 同 厂 本 的 值 按照 降序 排列 在 一 起 ， 访 问 的 
le 的 值 。 这 种 优化 的 目的 在 于 让 新 值 比 老 值 更 容易 被 读 





用 户 可 以 指定 每 个 值 所 能 保存 的 最 大 版 本 数 。 此 外 ， 还 支持 谓词 市 
除 (predicate deletion， 见 8.1.2 节 关于 LSM 树 的 内 容 ) ， 例 如 ， 人 允许 用 
户 只 保存 过 去 一 周 内 写 入 的 值 。 这 些 值 〈 或 单元 格 ) 也 只 是 未 解释 的 字 
节 数 组 ， 客 户 端 需要 知道 怎样 去 处 理 这 些 值 。 


前 面 提 到 过 ，HBase 是 按照 BigTable 模 型 实现 的 ， 是 一 个 稀疏 的 、 


分 布 式 的 、 持 久 化 的 、 多 维 的 映射 ， 由 行 键 、 列 键 和 时 间 戳 款 引 。 将 以 
上 特点 联系 在 一 起 ， 我 们 就 有 了 如 下 的 数据 存 取 模式 : 


(Table,RowKey,Family,Column,Timestamp)> Value 


可 以 用 一 种 更 像 编程 语言 的 风格 表示 如 下 : 





SortedMap< 
RowKey, List< 
SortedMap< 
Column, List< 
Value, Timestamp 





或 者 用 一 行 来 表示 : 


SortedMap< RowKey,List< SortedMap< Column,List< Value,Timestamp>>>> 





第 一 个 SortedMap 代表 那个 表 ， 包 含 一 个 列 族 的 List 。 列 族 中 包 
含 了 男 一 个 SortedMap 存储 列 和 相应 的 值 。 这 些 值 在 最 后 的 List 中 ， 
存储 了 值 和 该 值 被 设置 的 时 间 惟 。 


这 个 数据 存 取 模 型 的 一 个 有 趣 的 特性 是 单元 格 可 以 存在 多 个 版 本 ， 
不 同 的 列 被 号 入 的 次 数 不 同 。API 默 认 提 供 了 一 个 所 有 列 的 统一 视图 ， 
API 会 自动 选择 单元 格 的 当前 值 。 图 1-5 展 示 了 示例 表 中 的 某 一 行 


图 1-5 用 表示 单元 格 被 写 入 的 时 间 戳 所 可 视 化 了 时 间 组 件 ， 升 序 显 
示 了 这 些 值 被 插入 的 不 同时 间 。 图 1-6 是 另 一 种 查看 数据 的 方式 ， 在 这 
种 更 类 似 电子 表格 的 形式 中 ， 将 时 间 惟 添加 到 了 它 目 己 的 那 一 列 中 。 











“meta:mimetype” “meta:size” 


“{ “name’, “lars”, 
address”:...}” 





图 1-5 ”基于 时 间 的 行 的 组 成 部 分 


Column “data:” Column “meta:" wor a 
“mimetype” “size” 





ore “name Tas ‘adress: a a a 
| 昌 EE | | 
| 9 [namera o | 3 了 | 





图 1-6 用 电子 表格 展示 行 中 相同 的 部 分 


尽管 这 些 值 插 入 的 次 数 不 同 ， 并 且 存 在 多 个 版 本 ,但 是 仍然 能 将 行 
看 作 是 所 有 列 以 及 这 些 列 的 最 新 版 本 〔( 即 每 一 列 的 最 大 t， ) 的 组 合 。 这 
里 提供 了 和 查询 一 个 特定 时 间 惟 或 者 是 特定 时 间 戳 之 前 的 值 的 方式 ， 也 可 
以 一 次 查询 多 个 版 本 的 值 ， 关 于 这 一 点 请 参见 第 3 章 。 











webtable 


BigTable 和 HBase 的 典型 使 用 场景 是 webtable， 存 储 从 
互联 网 中 抓 取 的 网 页 。 


行 键 是 反 转 的 网 页 URL， 如 org.hbase.www 。 有 一 个 
用 于 存储 网 页 HTML 代 码 的 列 族 contents ， 还 有 其 他 的 列 
族 ， 如 anchor ， 用 于 存储 外 同 链接 和 入 站 链接 ， 还 有 一 个 
用 于 存储 元 数据 的 列 族 language 。 


contents 列 族 使 用 多 版 本 ， 人 允许 用 户 存储 一 些 旧 的 
HTML 副 本 ， 使 用 多 版 本 是 有 益 的 ， 例 如 帮助 分 析 一 个 页 
面 的 变化 频率 。 使 用 的 时 间 惟 是 抓 取 该 页 面 的 实际 次 数 。 





行 数 据 的 存 取 操作 是 原子 的 〈atomic) ， 可 以 读 写 任意 数目 的 列 。 
目前 还 不 支持 跨行 事务 和 跨 表 事务 。 原 子 存 取 也 是 促成 系统 架构 具有 强 
一 致 性 (strictly consistent〉 的 一 个 因素 ， 因 为 并 发 的 读 写 者 可 以 对 行 
的 状态 作出 安全 的 假设 。 


使 用 多 版 本 和 时 间 惟 同样 能 够 帮助 应 用 层 解决 一 致 性 问题 。 
1.4.3 ”自动 分 区 
HBase 中 扩展 和 负载 均衡 的 基本 单元 称 为 region，region 本 质 上 是 以 


行 键 排序 的 连续 存储 的 区 间 。 如 果 region 太 大 ， 系 统 就 会 把 它们 动态 拆 
分 ， 相 反 地 ， 就 把 多 个 region 合 并 ， 以 减少 存储 文件 数量 。 
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一 一 HBase 中 的 region 等 同 于 数据 库 分 区 中 用 的 范围 划分 
(range partition) 。 它 们 可 以 被 分 配 到 奎 干 台 物 理 服务 器 上 
以 均 挫 人 负载， 因此 提供 了 较 强 的 扩展 性 。 





一 张 表 初始 的 时 候 只 有 一 个 region， 用 户 开 始 向 表 中 插入 数据 时 ， 
系统 会 检查 这 个 region 的 大 小 ， 确 保 其 不 超过 配置 的 最 大 值 。 如 果 超 过 
了 限制 ， 系 统 会 在 中 间 键 ” (middle key，region 中 间 的 那个 行 键 ) 处 将 
这 个 region 拆 分 成 两 个 大 至 相等 的 子 region 〈 详 情 见 第 8 章 ) 。 


每 一 个 region 只 能 由 一 台 region 服 务 器 (region server) 加 载 ， 每 一 
台 region 服 务 器 可 以 同时 加 载 多 个 region。 图 1-7 展 示 了 一 个 表 ， 这 个 表 
实际 上 是 一 个 由 很 多 region 服 务 器 加 载 的 region 集 合 的 逻辑 视图 。 





region 服 务 器 : 物理 布局 


Region Server 3 
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图 1-7 ”region 中 的 行 分 组 加 载 到 不 同 的 服务 器 中 


wa, 
mA 
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ae 
一 一 BigTable 的 论文 中 指出 ， 每 台 服 务 器 中 region 的 最 侍 
加 载 数量 是 10 一 1000， 每 个 region 的 最 佳 大 小 是 100 MB 一 200 
MB。 这 个 标准 是 以 2006 年 (以 及 更 早 以 前 ) 的 硬件 配置 为 基 
准 参 数 建议 的 。 按 照 HBase 和 现在 的 硬件 能 力 ， 每 台 服务 器 的 
最 佳 加 载 数量 差不多 还 是 10 一 1000， 但 每 个 region 的 最 佳 大 小 
是 1 GB~2 GBJ 了 。 











虽然 数量 增加 了 ， 但 是 基本 原理 还 是 一 样 的 : 每 台 服 务 
器 能 加 载 的 region 数 量 和 每 个 region 的 最 佳 存 储 大 小 取决 于 单 
台 服 务 占 的 有 效 处 理 能 


region 拆 分 和 服务 相当 于 其 他 系统 提供 的 自动 分 区 
Cautosharding) 。 当 一 个 服务 器 出 现 故 障 后 ， 该 服务 器 上 的 region 可 以 
快速 恢复 ， 并 获得 细 粒 度 的 负载 均衡 ， 因 为 当 服务 于 某 个 region 的 服务 
峰 当 前 负载 过 大 、 发 生 错 误 或 者 被 停止 使 用 导致 不 可 用 时 ， 系 统 会 将 该 
region 移 到 其 他 服务 器 上 。 


region 拆 分 的 操作 也 非常 快 一 一 接近 瞬间 ， 因 为 拆 分 之 后 的 region 读 
取 的 仍然 是 原 存储 文件 ， 直 到 合并 把 存储 文件 异步 地 写成 独立 的 文件 ， 


详情 见 第 8 章 。 








1.4.4 存储 API 


“BigTable 并 不 文 持 完整 的 关系 数据 模型 ， 相 反 ， 它 拓 
供 了 有 共有 简单 数据 模型 的 客户 端 ， 这 个 简单 的 数据 模型 文 
持 动态 控制 数据 的 布局 格式 .…….” 





API 提 供 了 建 表 、 删 表 、 增 加 列 族 和 删除 列 族 操作 ， 同 时 还 提供 了 
修改 表 和 列 族 元 数据 的 功能 ， 如 压 纵 和 设置 块 大 小 。 此 外 ， 它 还 提供 了 
客户 端 对 给 定 的 行 键 值 进行 增 加 、 删 除 和 查找 操作 的 功能 。 


scan API 提 供 了 高 效 授 历 茶 个 范围 的 行 的 功能 ， 同 时 可 以 限定 返回 
哪些 列 或 者 返回 的 版 本 数 。 通 过 设置 过 小 器 可 以 匹配 返回 的 列 ， 通 过 设 
置 起 始 和 终止 的 时 间 范 围 可 以 选择 查询 的 版 本 。 


在 这 些 基 本 功能 的 基础 上 ， 还 有 一 些 更 高 级 的 特性 。 系 统 文 持 单行 
事务 ， 基 于 这 个 特性 ， 系 统 实现 了 对 单个 行 键 下 存储 的 数据 的 原子 读 - 
修改 - 写 (read-modify-write) 序列 。 虽 然 还 不 文 持 跨行 和 路 表 的 事务 ， 
但 客户 端 已 经 能 够 文 持 批量 操作 以 获得 更 好 的 性 能 。 


单元 格 的 值 可 以 当 作 计 数 喜 使 用 ， 并 且 能 够 文 持原 子 更 新 。 这 个 计 
数 妖 能 够 在 一 个 操作 中 完成 读 和 修改 ， 因 此 尽管 是 分 布 式 的 系统 架构 ， 
客户 端 依 然 可 以 利用 此 特性 实现 全 局 的 、 强 一 致 的 、 连 续 的 计数 器 。 


还 可 以 在 服务 器 的 地 址 空间 中 执行 来 自 客户 端的 代码 ， 文 持 这 种 功 
能 的 服务 端 框 架 叫 做 协 处 理 器 (coprocessor) 。 这 个 代码 能 直接 访问 服 
务 嚣 本 地 的 数据 ， 可 以 用 于 实现 轻 量 级 批 处 理 作业 ， 或 者 使 用 表达 式 并 
基于 各 种 操作 来 分 析 或 汇总 数据 。 
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一 人 HBase 在 0.91.0 版 本 中 加 入 了 协 处 理 器 。 


最 后 ， 系 统 通 过 提供 包装 器 集成 了 MapReduce 框 架 ， 该 包装 器 能 够 
将 表 转 换 成 MapReduce 作 业 的 输入 源 和 输出 目标 。 


与 RDBMS 不 同 ，HBase 系 统 没有 提供 查询 数据 的 特定 域 语言 ， 例 如 
SQL。 数 据 存 取 不 是 以 声明 的 方式 完成 的 ， 而 是 通过 客户 端 API 以 纯粹 
的 命令 完成 的 。HBase 的 API 主 要 是 Java 代 码 ， 但 是 也 可 以 用 其 他 编程 语 
言 来 存 取 数据 。 








1.4.5 ”实现 


“BigTable.……. 人 允许 客户 端 推 基 在 撒 层 存储 中 表示 的 数 
据 的 位 置 属性 。” 


数据 存储 在 存储 文件 (store file) 中 ， 称 为 HFile，HFile 中 存储 的 
是 经 过 排序 的 键 值 映 射 结 构 。 文 件 内 部 由 连续 的 块 组 成 ， 块 的 索引 信息 
存储 在 文件 的 尾部 。 当 把 HFile 打 开 并 加 载 到 内 存 中 时 ， 索 引信 息 会 优 
先 加 载 到 内 存 中 ， 每 个 块 的 默认 大 小 是 64KB， 可 以 根据 需要 配置 不 同 
ee enon 六 设 定 起 始 和 终止 行 键 范围 的 API 用 于 扫 
省 特定 的 值 。 
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C 关于 实现 的 细节 会 在 第 8 章 中 讨论 ， 接 下 来 只 是 对 
系统 的 实现 进行 简单 介绍 。 

















每 一 个 HFile 都 有 一 个 块 索引， 通过 一 个 磁盘 碍 找 就 可 以 实现 碍 
询 。 首 先 ， 在 内 存 的 块 索引 中 进行 二 分 查找 ， 确 定 可 能 包含 给 定 键 的 
块 ， 然 后 读 取 人 夏 盘 块 找到 实际 要 找 的 键 。 





存储 文件 通常 保存 在 Hadoop 分 布 式 文件 系统 (Hadoop Distributed 
File System, HDFS) 中，HDFS 提 供 了 一 个 可 扩展 的 、 持 久 的 、 见 余 的 
HBase 存 储 层 。 存 储 文件 通过 将 更 改写 入 到 可 配置 数目 的 物理 服务 器 
中 ， 以 保证 不 丢失 数据 。 


每 次 更 新 数据 时 ， 都 会 先 将 数据 记录 在 提交 日 志 (commit log) 
中 ， 在 HBase 中 这 叫做 预 写 日 志 Cwrite-aheadlog, WAL) ， 然 后 才 会 








将 这 些 数据 写 入 内 存 中 的 memstore 中 。 一 旦 内 存 保存 的 写 入 数据 的 累计 
大 小 超过 了 一 个 给 定 的 最 大 值 ， 系 统 就 会 将 这 些 数 据 移出 内 存 作为 
HFile 文 件 刷 写 到 磁盘 中 。 数 据 移出 内 存 之 后 ， 系 统 会 丢弃 对 应 的 提交 
日 志 ， 只 保留 未 持久 化 到 磁盘 中 的 提交 日 志 。 在 系统 将 数据 移出 
memastore 写 入 磁盘 的 过 程 中 ， 可 以 不 必 阻 塞 系统 的 读 写 ， 通 过 滚动 内 存 
中 的 memstore 束 能 达到 这 个 目的 ， 即 用 空 的 新 memstore 获 取 更 新 数据 ， 
将 满 的 旧 memstore 转 换 成 一 个 文件 。 请 注意 ，memstore 中 的 数据 已 经 按 
照 行 键 排序 ， 持 久 化 到 磁盘 中 的 HFile 也 是 按照 这 个 顺序 排列 的 ， 所 以 
不 必 执 行 排序 或 其 他 特殊 处 理 。 
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4. 
一 现在 我 们 开始 讨论 本 节 开 头 提 到 的 BigTable 引 文 ， 
并 搞 清 位 置 属 性 (locality property) 是 什么 。 所 有 文件 包含 的 
键 / 值 对 都 是 按 行 键 顺序 归 类 的 ， 并 且 对 块 级 别 的 操作 做 了 优 
化 ， 比 如 顺序 地 读 取 这 些 键 / 值 对 的 操作 ， 因 此 ， 行 键 需要 特 
殊 指定 。 在 前 面 介绍 webtable 的 例子 中 ， 你 可 能 已 经 注意 到 
了 ， 使 用 的 行 键 是 反 转 的 FQDN (网 址 的 域名 部 分 ) ， 如 
org.hbase .www 。 主 要 原因 是 通过 网 址 反 转 ， 把 网 址 中 最 重 
要 的 部 分 一 一 顶级 域名 (TLD) 放 在 最 前 面 ， 可 以 让 来 自 
hbase.org 的 网 页 在 HBase 中 顺序 地 排列 在 一 起 。 例 如 ， 
blog.hbase.org 下 面 的 页 面 和 那些 来 自 www.hbase.org 的 页 面 
会 归 为 一 类 ， 或 者 说 org.hbase .www 会 排列 

在 org.hbase.blog 的 后 面 。 














因为 存储 文件 是 不 可 被 改变 的 ， 所 以 无 法 通过 移 除 某 个 键 / 值 对 来 
简单 地 删除 值 。 可 行 的 解雇 办 法 是 ， 做 个 删除 标记 (delete marker, X 
preety i) ， 表 明 给 定 行 已 被 删除 的 事实 。 在 检索 过 程 中 ， 这 些 删 除 
标记 掩盖 了 实际 值 ， 客 户 端 读 不 到 实际 值 。 








读 回 的 数据 是 两 部 分 数据 合并 的 结果 ， 一 部 分 是 memstore 中 还 没有 
写 入 磁盘 的 数据 ， 另 一 部 分 是 磁盘 上 的 存储 文件 。 值 得 注意 的 是 ， 数 气 
检索 时 用 不 着 WAL， 只 有 服务 器 内 存 中 的 数据 在 服务 器 骨 溃 前 没有 写 
入 到 磁盘 ， 而 后 进行 恢复 数据 时 才 会 用 到 WAL。 

随 着 memstore 中 的 数据 不 断 刷 写 到 磁盘 中 ， 会 产生 越 来 越 多 的 
HFile 文 件 ，HBase 内 部 有 一 个 解决 这 个 问题 的 管家 机 制 ， 即 用 合并 将 多 
个 文件 合并 成 一 个 较 大 的 文件 。 合 并 有 两 种 类 型 : minor 合 并 (minor 
compaction) 和 major 压 缩合 并 (majar compaction) 。minor 合 并 将 多 个 
小 文件 重 写 为 数量 较 少 的 大 文件 ， 减 少 存储 文件 的 数量 ， 这 个 过 程 实际 
上 是 个 多 路 归并 的 过 程 。 因 为 HFile 的 每 个 文件 都 是 经 过 归 类 的 ， 所 以 
合并 速度 很 快 ， 只 受到 磁盘 IO 性 能 的 影 啊 。 

major 合 并 将 一 个 region 中 一 个 列 族 的 耕 干 个 HFile 重 写 为 一 个 新 
HFile， 与 minor 合 并 相 比 ， 还 有 更 独特 的 功能 : major 合 并 能 扫 摘 所 有 的 
键 / 值 对 ， 顺 序 重 写 全 部 的 数据 ， 重 写 数据 的 过 程 中 会 略 过 做 了 删除 标 
记 的 数据 。 断 言 删 除 此 时 生效 ， 例 如 ， 对 于 那些 超过 厂 本 号 限制 的 数据 
以 及 生存 时 间 到 期 的 数据 ， 在 重 写 数据 时 就 不 再 写 入 磁盘 了 。 


一 这 种 架构 来 源 于 LSM 树 〈 见 8.1.2 节 ) 。 唯 一 的 区 别 
是 ，LSM 树 将 多 页 块 (multipage block) 中 的 数据 存储 在 磁盘 
中 ， 其 存储 结构 布局 类 似 于 B 树 。 在 HBase 中 ， 数 据 的 更 新 与 
合并 是 轮流 进行 的 ， 而 在 BigTable 中 ， 更 新 是 更 粗 粒 度 的 操 
作 ， 整 个 memstore 会 存储 为 一 个 新 的 存储 文件 ， 不 会 马上 合 
并 。 可 以 把 HBase 的 这 种 架构 称 为 "LSM 了 映射 ”〈Log- 
Structured Sort-and-Merge-Map) 。 后 台 合 并 过 程 与 LSM 树 的 
结构 合并 过 程 相对 应 ， 只 不 过 HBase 合 并 重 写 整个 文件 ， 而 不 
会 像 LSM 树 一 样 只 操作 树 结构 的 部 分 数据 ，LSM 树 结构 也 正 
是 因为 这 种 操作 而 得 名 。 




















HBase 中 有 3 个 主要 组 件 : 客户 端 库 、 一 台 主 服务 器 、 多 台 region 服 
务 器 。 可 以 动态 地 增加 和 移 除 region 服 务 器 ， 以 适应 不 断 变 化 的 负载 。 
主 服 务 器 主要 负责 利用 Apache ZooKeeper 为 region 服 务 器 分 配 region， 
Apache ZooKeeper 是 一 个 可 靠 的 、 高 可 用 的 、 持 久 化 的 分 布 式 协调 系 
统 。 


Apache ZooKeeper 


ZooKeeper © 是 Apache 软 件 基金 会 旗下 的 一 个 独立 开 
源 系 统 ， 它 是 Google 公 司 为 解决 BigTable 中 问题 而 提出 的 
Chubby 算 法 的 一 种 开源 实现 。 它 提供 了 类 似 文件 系统 一 样 
的 访问 目录 和 文件 〈 称 为 znode) 的 功能 ， 通 常 分 布 式 系统 
利用 它 协调 所 有 权 、 注 册 服 务 、 监 听 更 新 。 


台 region 服 务 器 在 ZooKeeper 中 注册 一 个 自己 的 临时 
节点 ， 主 服务 器 会 利用 这 些 临 时 节点 来 发 现 可 用 服务 器 ， 
还 可 以 利用 临时 节点 来 跟踪 机 器 故障 和 网 络 分 区 。 





在 ZooKeeper 服 务 器 中 ， 每 个 临时 节点 都 属于 某 一 个 会 
话 ， 这 个 会 话 是 客户 端 连接 上 ZooKeeper 服 务 器 之 后 自动 生 
成 的 。 每 个 会 话 在 服务 器 中 有 一 个 唯一 的 id， 并 且 客 户 端 
会 以 此 id 不 断 地 加 ZooKeeper 服 务 器 发 送 “ 心 跳 "”， 一 旦 发 生 
故障 ZooKeeper 客 户 端 进程 死 掉 ，ZooKeeper 服 务 器 会 判定 
该 会 话 超时 ， 并 自动 删除 属于 它 的 临时 节点 。 


HBase 还 可 以 利用 ZooKeeper 确 保 只 有 一 个 主 服务 器 在 
运行 ， 存 储 用 于 发 现 region 的 引导 位 置 ， 作 为 一 个 region 服 
务 器 的 注册 表 ， 以 及 实现 其 他 目的 。ZooKeeper 是 一 个 关键 
组 成 部 分 ， 没 有 它 HBase 就 无 法 运作 。ZooKeeper 使 用 分 布 


式 的 一 系列 服务 器 和 Zab 协 议 《〈 确 保 其 状态 保持 一 致 ) 减轻 
SJ FASEB tH. 





图 1-8 展 示 了 HBase 的 各 个 组 件 是 如 何 利用 a 
E 而 且 还 增加 了 自己 的 层 以 形成 一 个 完整 
平 
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图 1-8 HBase 利 用 自身 组 件 的 同时 还 平衡 地 利用 了 已 有 的 系统 


master 服 务 器 负责 跨 region 服 务 器 的 全 局 region 的 负载 均衡 ， 将 繁忙 
的 服务 器 中 的 region 移 到 负载 较 轻 的 服务 器 中 。 主 服务 器 不 是 实际 数据 
存储 或 者 检索 路 径 的 组 成 部 分 ， 它 仅 提 供 了 负载 均衡 和 集群 管理 ， 不 为 
region 服 务 器 或 者 客户 并 提供 任何 的 数据 服务 ， 因 此 是 轻 量 级 服务 右 。 
此 外 ， 主 服务 器 还 提供 了 元 数据 的 管理 操作 ， 例 如 ， 建 表 和 创建 列 族 。 


region 服 务 器 负责 为 它们 服务 的 region 提 供 读 写 请 求 ， 也 提供 了 拆 分 
超过 配置 大 小 的 region 的 接口 。 客 户 问 则 直接 与 region 服 务 嚣 通信， 处 理 
所 有 数据 相关 的 操作 。 


8.5 市 详细 介绍 了 客户 端 如 何 执行 region 查 找 。 





1.4.6 ”小 结 





“ 数 十 亿 行 x 数 百 万 列 x 数 干 个 版 本 = TB 级 或 PB 级 的 存 
tif” 


我 们 已 经 见识 到 ，BigTable 的 存储 架构 是 怎样 使 用 多 合 服务 器 将 按 
键 归 类 的 行 拆 分 成 多 个 范围 来 负载 均衡 的 ， 还 看 到 了 它 是 怎样 使 用 上 干 
台 机 器 存储 PB 级 数据 的 。 使 用 的 存储 格式 对 于 顺序 读 相 邻 的 键 / 值 对 来 
说 是 很 理想 的 ， 这 种 格式 针对 块 JO 操 作 做 了 优化 ， 能 最 大 限度 地 利用 
磁盘 传输 通道 。 


表 的 扫描 与 时 间 呈 线性 关系 ， 行 键 的 得 找 以 及 修改 操作 与 时 间 呈 对 
BK A—_ tom Pe HBR AR EH SA Bee as) 。HBase 在 设 
th Ese SSA, GER STAT EERIE, KERRAEN 
读 写 操作 性 能 而 影响 系统 扩展 能 


当前 的 列 式 存 储 结构 允许 表 在 实际 存储 时 不 存储 NULL 值 ， 因 此 表 
可 以 看 作 是 个 无 限 的 、 稀 琉 的 表 。 表 中 每 行 数据 只 由 一 台 服 务 器 所 服 
务 ， 因 此 HBase 具 有 强 一 任性 ， 使 用 多 版 本 可 以 避免 因 并 友 解 厢 过 程 引 
起 的 编辑 冲突 ， 而 且 可 以 保留 这 一 行 的 历史 变化 。 


事实 上 ， 至 少 从 2005 年 开始 ，BigTable 就 已 经 应 用 于 Google 生 产 ， 
拥有 非常 多 的 应 用 场景 ， 从 批 处 理 到 实时 数据 服务 都 有 和 它 的 号 影 。 
BigTable 存 储 的 数据 既 可 以 非常 小 〈 例 如 URL) ， 也 可 以 特别 大 《如 网 
页 和 卫星 图 片 ) ， 还 成 功 地 为 许多 知名 的 Google 产 品 提供 了 灵活 的 、 高 
性 能 的 解决 方案， 这 些 产品 包括 Google Earth. Google Reader, Google 
Finance 和 Google Analytics. 














1.5 HBase: Hadoop 数 据 库 


看 过 BigTable 的 架构 之 后 ， 我 们 可 能 会 简单 地 认为 HBase 完 全 古 
Google 的 BigTable 的 开源 实现 。 但 是 这 个 说 法 可 能 过 于 简单 ， 因 为 两 者 
之 间 还 有 些 差 寞 (大 多 是 细微 的 ) 值得 一 提 。 


1.5.1 历史 


HBase 是 Powerset ® 在 2007 年 创建 的 ， 最 初 是 Hadoop 的 一 部 分 。 之 
后 ， 它 逐步 成 为 Apache 软 件 基金 会 旗下 的 顶级 项 目 ， 有 具备 Apache 软 件 许 
可 证 ， 版 本 为 2.0。 


HBase 项 目的 主页 是 http:/hbase.apache.org/ ， 通 过 这 个 主页 可 以 链 
接 到 文档 〈documentation) 、wiki、 源 代码 库 (source repository) ， 以 
及 已 经 发 布 的 库 和 源 代码 的 下 载 站 点 。 


下 面 是 一 个 HBase 随 时 间 发 展 的 简短 概述 。 


2006 年 11 月 : Google 发 布 BigTable 论 文 。 

2007 年 2 月 : HBase 宣 布 在 Hadoop 项 目 中 成 立 。 © 
2007 年 10 月 : HBase 第 一 个 “可 用 ”版 本 (Hadoop 0.15.0) 。 
2008 年 1 月 : Hadoop 成 为 Apache 的 顶级 项 目 ，HBase 成 为 Hadoop 的 
子 项 目 。 

2008 年 10 月 : HBase 0.18.1 发 布 。 

2009 年 1 月 : HBase 0.19.0 发 布 。 

2009 年 9 月 : HBase 0.20.0 发 布 ， 性 能 有 明显 提升 。 
2010 年 5 月 : HBase 成 为 Apache 的 顶级 项 目 。 

2010 年 6 月 ， HBase 0.89.20100621， 第 一 个 开发 版 本 。 
2011 年 1 月 : HBase 0.90.0 发 布 ， 稳 定性 和 持久 性 有 所 提升 。 
2011 年 年 中 : HBase 0.92.0 发 布 ， 支 持 协 处 理 器 和 安全 控制 。 
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”2010 年 5 月 前 后 ，HBase 的 开发 者 决定 打破 一 直 依赖 
的 、 步 调 一 致 的 Hadoop 的 版 本 编号 。 原 因 是 HBase 有 一 个 更 
快 的 发 布 周期 ， 同 时 更 接近 1.0 版 本 的 水 平 ， 比 Hadoop 的 预期 
更 快 。 


为 此 ， 版 本 号 从 0.20.x 跳 到 了 0.89.x， 跳 路 相当 明显 。 此 
外 ， 还 做 了 一 个 决定 ， 将 0.89.x 定 为 早期 的 开发 版 本 。 在 0.89 
的 基础 上 最 终 发 布 了 0.90， 即 面向 所 有 用 户 的 稳定 版 。 





1.5.2 ”命名 


HBase 与 BigTable 最 大 的 不 同 就 是 命名 。 表 1-1 罗 列 了 两 个 系统 之 间 
相同 组 件 的 命名 有 哪些 不 同 。 








BigTable 


Major compaction Major compaction 





Hadoop MapReduce MapReduce 





更 多 的 差异 参见 附录 E。 
1.5.3 ”小 结 


让 我 们 回 到 1.3.1 节 来 看 看 怎样 用 维度 来 描述 HBase 系 统 。HBase 是 
一 个 分 布 式 的 、 持 久 的 、 强 一 致 性 的 存储 系统 ， 具 有 近似 最 优 的 写 性 能 
(能 使 WO 利用 率 达 到 饱和 ) 和 出 色 的 读 性 能 ， 它 充分 利用 了 磁盘 空 
间 ， 支 持 特定 列 族 切 换 可 选 压 缩 算法 。 


HBase 继 承 自 BigTable 模 型 ， 只 考虑 单一 的 索引 ， 类 似 于 RDBMS 中 
的 主键 ， 提 供 了 服务 器 端 钩 子 ， 可 以 实施 灵活 的 辅助 索引 解决 方案 。 此 
外 ， 它 还 提供 了 过 滤器 功能 ， 减 少 了 网 络 传输 的 数据 量 。 


HBase 并 未 将 说 明 性 查询 语言 作为 核心 实现 的 一 部 分 ， 对 事务 的 文 
持 也 有 限 。 但 行 原子 性 和 *“ 读 -修改 - 写 ?操作 在 实践 中 弥补 了 这 个 缺陷 ， 
它们 罗 凋 了 大 部 分 的 使 用 场景 并 消除 了 在 其 他 系统 中 经 历 过 的 死 锁 、 等 


竺 问题 。 
HBase 在 进行 负载 均衡 和 故障 恢复 时 对 客户 端 是 透明 的 。 在 生产 系 


统 中 ， 系 统 的 可 扩展 性 体现 在 系统 自动 伸缩 的 过 程 中 。 更 改 集群 并 不 涉 
及 重新 全 量 负 载 均衡 和 数据 重 分 区 ， 但 整个 处 理 过 程 完 全 是 目 动 化 的 。 


























© 例如 ， 参 见 Michael Stonebraker 和 UgurCetintemel 撰 写 的 文章 “‘One 
Size Fits All’: An Idea Whose Time Has Come and Gone” ( 
http://www.cs.brown.edu/~ugur/fits_all.pdf ) 。 


D 相关 信息 可 以 在 Hadoop 的 官方 网 站 hettp://hadoop.apache.org/ PER 
到 。 也 可 以 到 Tom White 编写 的 《Hadoop 权 威 指南 〈 第 2 版 ) 》 CEE 
版 社 为 O'Reilly) 一 书 中 查阅 你 想 了 解 的 Hadoop 知 识 。 


© 此 处 引用 的 是 Kimball 集 团 的 Ralph Kimball 博 士 的 一 篇 题 
为 “Rethinking EDW in the Era of Expansive Information Management” 的 演 
YF C http:/www.informatica.com/campaigns/rethink_edw_kimball.pdf ) ， 


这 个 演讲 讨论 了 一 个 不 断 发 展 的 企业 数据 仓库 市 场 的 需求 。 


(4) Edgar F. Codd 定 义 了 13 个 规则 《编号 为 0 一 12) ， 这 些 规则 促使 数据 
库 管 理 系统 (Datebase Management System, DBMS) 被 考虑 为 
RDBMS。HBase 需 要 满足 更 多 的 通用 规则 ， 但 也 有 一 些 规则 没有 满足 ， 
最 重要 的 是 规则 5: 全 面 的 数据 子 语言 规则 ， 这 个 规则 定义 了 至 少 需要 
文 持 一 种 关系 型 语言 。 详 情 见 维基 百科 关于 科 德 十 二 定律 的 链接 
http://en.wikipedia.org/wiki/Codd's_12_rules 。 











©) 见 Facebook 提 供 的 信息 http://www.facebook.com/note.php? 
note_id=89508453919 。 


©) 请 看 博文 http:/www.facebook.com/note.php?note_id=454991608919， 
这 篇 博文 来 自 Facebook 的 工程 团队 。150 亿 条 墙 消 息 和 1200 亿 条 聊天 消 
晨 ， 共 计 1350 亿 条 消 乱 一 个 月 。 此 外 ，Facebook 还 添加 了 SMS 和 其 他 一 
些 应 用 ， 这 些 都 会 使 数据 量变 得 更 为 庞大 。 

@) Facebook 使 用 了 Haystack，Haystack 优 化 了 二 进 制 大 对 象 的 存储 结 
构 ， 提 供 了 二 进 制 小 对 象 存储 ， 例 如 图 片 。 


JL http://www.slideshare.net/brizzzdotcom/facebook-messages-hbase ， 
这 是 Facebook 的 员工 Nicolas Spiegelberg 写 的 ， 他 也 是 HBase 的 
committer。 





G@) Linux、Apache、MySQL 和 PHP (或 者 Perl 和 Python) 的 缩写 。 


Atomicity、Consistency、Isolation 和 Durability 的 缩写 。 


D Memcached 是 基于 内 存 的 、 非 持久 化 的 、 非 分 布 式 的 键 值 存储 系统 。 
参见 Memcached 项 目的 主页 http://memcached.org/ 。 


D 见 维基 百科 中 的 “NoSQL”( http://en.wikipedia.org/wiki/NoSQL ) 。 


(3) 见 Eric Brewer 的 论文 http:/www.cs.berkeley.edu/~brewer/cs262b- 
2004/PODC-keynote.pdf ， 后 期 Gilbert 与 Lynch 发 表 了 PDF 版 ， 详 情 见 
http://lpd.epfl.ch/sgilbert/pubs/BrewersConjecture-SigAct.pdf 。 


见 Brewer 的 论文 “Lessons from giant-scale services. Internet 
Computing”, IEEE, 2001, 5 (4): 46~55 ( 
http://ieeexplore.ieee.org/xpl/freeabs_all.jsp ?arnumber=939450 ). 


(5) 见 Jim Gray 等 人 的 “FT 101” ( http://research.microsoft.com/en- 
us/um/people/gray/talks/UCBerkeley_Gray_FT_Avialiability_talk.ppt ) 。 


DDI 这 个 词 是 Salmen 博 士 等 人 于 2009 年 在 “Cloud Data Structure 
Diagramming Techniques and Design Patterns” 一 文中 提出 的 。 


QD 请 注意 ， 这 仅仅 是 一 个 演示 用 例 ， 所 以 故意 将 模式 设计 得 很 简单 。 
在 5.1.3 节 中 会 看 到 ， 还 可 以 不 设置 qualifier 。 


(9) 虽然 HBase 不 支持 在 线 的 region 合 并 ， 但 是 有 离线 处 理 合 并 的 工具 ， 
详情 见 11.6 节 。 





CD 有 关 Apache ZooKeeper 的 更 多 信息 请 参见 Apache ZooKeeper 官 方 网 站 
( http://hadoop.apache.org/zookeeper/ ) 。 


@) Powerset 公 司 位 于 旧金山 ， 开 发 了 一 套用 于 互联 网 的 自然 语言 搜索 引 
警 。 在 2008 年 7 月 1 日 ， 微 软 公 司 收 购 了 Powerset， 之 后 Powerset 放 弃 了 
对 HBase 开 发 的 后 续 文 持 。 


@ 在 Apache JIRA (网 站 上 的 问题 追踪 系统 ) 中 找到 HBASE-287， 里 面 
可 以 找到 当时 的 记录 ， 读 者 可 以 看 到 Mike Cafarella 提 交 的 最 初代 码 ， 这 
个 代码 很 快 就 被 Jim Kellerman 采 纳 了 ，Jim Kellerman 当 时 就 职 于 


Powerset. 





第 2 章 ”安装 


本 章 将 讲述 如 何 安装 HBase 以 及 如 何 对 HBase 进 行 初 始 化 配置 。 我 
n ere 例如 ， 添 加 、 检 索 
和 删除 数据 。 


rae 
| Wa 
一 以 下 讲述 的 内 容 均 假设 用 户 已 经 安装 了 Java 运 行 时 
环境 (Java Runtime Environment, JRE) ，Hadoop 和 HBase 要 
求 都 至 少 是 1.6 版 本 (也 称 为 Java 6) 以 上 的 JRE， 推 荐 使 用 

Oracle 公 司 《原来 是 Sun 人 公司， 后 来 Oracle 收 购 了 Sun 公 司 ) He 
供 的 版 本 ， 可 以 在 http:Mwww.java.comydownload /下 载 。 如 果 
用 户 还 未 安装 Java 运 行 时 环境 ， 或 者 在 使 用 过 程 中 存在 问 


题 ， 请 参见 2.2.3 节 的 “Java”。 


2.1 快速 月 动 指南 


想 知道 如 何 运 行 HBase 吗 ? 想 即 刻 知道 HBase 是 如 何 工 作 的 吗 ? 
从 etldr © 部 分 开始 了 解 吧 ! 这 是 最 容易 理解 的 部 分 ， 因 为 用 户 只 需要 
从 Apache HBase 发 布 版 本 页 面 下 载 最 新 的 HBase 版 本 ( 
http://www.apache.org/dyn/closer.cgi/hbase/ ) ， 并 将 内 容 解压 到 合适 的 
目录 ， 如 /usr/local 或 者 /opt 即 可 ， 就 像 这 样 : 


$ cd /usr/local 


$ tar -zxvf hbase-x.y.z 





设置 数据 路 径 


此 刻 ， 就 可 以 准备 启动 HBase 了 。 在 启动 HBase 之 前 ， 
建议 先 把 数据 目录 设置 到 合适 的 位 置 。 需 要 编辑 配置 文件 
conf/hbase-site.xml ， 并 设置 合适 的 数据 路 径 : 通过 对 属性 
键 hbase.rootdir 赋值 ， 来 配置 用 户 想 要 的 HBase 进 行 写 
操作 的 路 径 写 路 径 。 


< ?Xml version="1.0"?> 
< ?xml-stylesheet type="text/xsl" href="configuration.xs1"?> 
< configuration> 
< property> 
< name>hbase.rootdir< /name> 
< value>file:///< PATH> 


/hbase< /value> 
< /property> 
< /configuration> 





用 户 可 以 自 定 义 上 述 示例 配置 文件 中 的 <PATH> ， 将 其 
替换 为 希望 存储 HBase 数 据 的 路 径 。 默 认 情 况 
F, hbase.rootdir 设置 为 /tmp/hbase-${user.name} ， 当 
服务 器 重启 的 时 候 ， 数 据 可 能 会 丢失 ， 因 为 很 多 操作 系统 
会 在 重启 的 时 候 清 空 /tmp 目录 。 


蔡 换 之 后 ， 就 可 以 启动 HBase 并 开始 第 一 次 交互 了 。 在 交互 窗口 中 
的 提示 符 后 面 输入 status 命令 ( 按 回 车 键 完成 命令 操作 ) : 








$ cd /usr/local/hbase-@.91.0-SNAPSHOT 


$ bin/start-hbase.sh 


starting master, logging to \ 
/usr/local/hbase-@. 91.0 


- SNAPSHOT 


/bin/../logs/hbase--master-localhost.out 
$ bin/hbase shell 


HBase Shell; enter 'help< RETURN>' for list of supported commands. 
Type "exit< RETURN>" to leave the HBase Shell 
Version: @.91.0-SNAPSHOT,r1130916, Sat Jul 23 12:44:34 CEST 2011 


hbase(main):001:@> status 


1 servers, 0 dead, 2.0000 average load 

















以 上 显示 信息 表明 HBase 已 启动 并 且 正 在 运行 。 下 面 通过 使 用 一 些 
命令 证 明 HBase 能 够 将 数据 存放 进去 ， 接 着 对 其 进行 检索 。 


一 人 现在 看 来 读者 也 许 还 不 是 很 清楚 我 们 正在 做 的 事情 
的 作用 ， 但 这 都 是 必要 的 准备 工作 ， 正 如 坐 在 一 辆 汽车 中 启 
动 发 动机 的 时 候 ， 也 需要 时 刻 掌控 好 刹车 装置 一 样 。 其 实 ， 

在 类 似 生产 的 环境 中 使 用 HBase， 还 需要 很 多 配置 和 要 了 解 的 











知识 ， 不 过 我 们 可 以 从 基础 的 HBase 命 令 开始 学 习 ， 然 后 逐渐 


现在 我 们 运行 的 是 所 谓 的 单机 模式 (Standalone 
Mode) ， 查 看 后 面 的 章节 〈( 见 2.5 节 ) 将 会 看 到 多 种 可 用 的 模 
式 。 现 在 了 解 下 面 这 一 点 很 重要 : 在 单机 模式 中 ， 一 切 事 物 
都 运行 在 单个 Java 进 程 中 ， 并 且 所 有 的 文件 默认 情况 下 都 将 
存储 在 /tmp 路 径 下 除非 用 户 按照 前 文中 给 出 的 提示 ， 改 
变 了 存储 路 径 。 如 果 数 据 存 储 在 默认 路 径 下 ， 服 务 器 一 旦 重 
局， 测试 数据 就 会 丢失 。 数 据 一旦 被 操作 系统 删除 ， 将 无 法 











现在 来 创建 一 个 简单 的 表 并 新 增 几 行 数据 : 





hbase(main):002:@> create 'testtable', 'colfam1' 


© row(s) in 0.2930 seconds 


hbase(main) :@03:@> list 'testtable' 


TABLE 
testtable 
1 row(s) in 0.0520 seconds 


hbase(main):004:@> put 'testtable', 'myrow-1"', 'colfam1:q1', 'value-1' 


© row(s) in 0.1020 seconds 


hbase(main):005:@> put 'testtable', 'myrow-2', 'colfam1:q2', 'value-2' 


© row(s) in 0.0410 seconds 


hbase(main):006:0> put 'testtable','myrow-2','colfam1:q3','value-3' 


© row(s) in 0.0380 seconds 





通过 一 条 命令 ， 我 们 创建 了 一 张 带 有 一 个 列 族 的 表 ， 该 者 可 以 通过 











list 命令 来 检查 这 张 表 是 否 已 经 存在 了 。 目 前 只 有 一 张 表 的 情况 下 ， 
读者 可 以 看 到 它 是 如 何 输出 表 名 testtable 的 。 然 后 ， 我 们 存放 几 行 数 
据 。 读 者 仔细 阅读 示例 的 话 可 以 发 现 ， 我 们 通过 两 个 不 同 的 行 

键 myrow-1 和 myrow-2 把 新 增 数据 添加 到 两 个 不 同 的 行 中 。 由 第 1 半 中 
描述 的 表 结 构 可 知 ， 在 有 了 一 个 名 为 coIfaml 的 列 族 之 后 ， 还 要 添加 一 
个 任意 的 限定 符 才 能 形成 实际 的 列 ， 如 colfam1:q1 、colfam1:q2 和 
colfam1:q3 . 


接 下 来 要 做 的 是 ， 确 认 新 增 的 数据 是 否 能 被 检索 ， 使 用 scan 操作 
就 能 实现 : 

















hbase(main):007:@> scan 'testtable' 


ROW COLUMN+CELL 

myrow-1 column=colfam1:qi, timestamp=1297345476469, value= value-1 

myrow-2 column=colfam1:q2, timestamp=1297345495663, value= value-2 
myrow-2 column=colfam1:q3, timestamp=1297345508999, value= value-3 


2 row(s) in 0.1100 seconds 








你 已 经 看 到 HBase 是 如 何 打印 数据 的 ， 它 通过 面 问 单元 格 的 方式 分 
别 输出 每 一 列 数 据 。 可 以 看 出 它 确实 打印 了 两 次 myrow-2 ， 这 与 预期 的 
一 样 ， 后 面 还 显示 了 每 一 列 的 实际 数值 。 


如 休想 要 获得 单行 数据 ， 可 以 使 用 get 命令 ， a 
项 ， 后 面 会 详细 讨论 ， 现 在 只 简单 地 尝试 一 下 这 个 命令 








hbase(main):668:6> get 'testtable', 'myrow-1' 


COLUMN CELL 
colfami:q1 timestamp=1297345476469, value=value-1 


1 row(s) in 0.0480 seconds 





删除 数据 也 是 基本 操作 之 一 ， 同 样 ，delete 命令 也 有 很 多 选项 ， 
但 现在 我 们 只 简单 地 删除 一 个 具体 的 单元 格 ， 并 检查 数据 是 否 ; 真 的 删除 
> 





hbase(main):009:@> delete 'testtable', 'myrow-2', 'colfam1:q2' 


© row(s) in 0.0390 seconds 


hbase(main):0@10:@> scan 'testtable' 


ROW COLUMN+CELL 

myrow-1 column=colfam1:q1,timestamp=1297345476469, value=val 
ue-1 

myrow-2 column=colfam1:q3,timestamp=1297345508999, value=val 


ue-3 


2 row(s) in 0.0620 seconds 











P 在 对 这 个 简单 的 练习 进行 总 结 之 前 ， 需 要 先 茶 用 并 删除 这 张 练习 


hbase(main):@11:@> disable 'testtable' 


@ row(s) in 2.125@ seconds 


hbase(main):@12:@> drop 'testtable' 


© row(s) in 1.2780 seconds 





然后 ， 通 过 输入 exit 命令 关闭 Shell 并 返回 到 命令 行 窗 口 : 


hbase(main):013:0> exit 





最 后 ， 运 行 stop-hbase. sh 脚本 关闭 HBase 系 统 : 


$ bin/stop-hbase.sh 


stopping hbase..... 





这 样 就 完成 了 整个 流程 。 我 们 成 功 地 创建 了 表 ， 进 行 了 数据 的 添 
加 、 检 索 以 及 删除 ， 最 终 通过 HBase Shell 删 除了 表 。 


2.2 必 备 条 件 


下 面 所 描述 的 条 件 并 不 是 所 有 HBase 文 持 的 运行 模式 都 需要 的 。 如 
果 读 者 纯粹 是 出 于 本 地 测试 的 目的 ， 惑 只 需要 安 逆 Java， 如 2.1 节 所 述 。 


2.2.1 ”硬件 


很 难为 HBase 推 荐 一 知 有 具体 类 型 的 服务 器 。 事 实 上 ，HBase 能 在 多 
种 不 同 配置 的 硬件 上 运行 。 通 第 的 描述 是 商用 Ccommodity) 人 硬件， 但 
这 代表 什么 意思 呢 ? 


对 于 初学 者 ， 我 们 在 此 不 讨论 果 面 PC 系统 ， 只 讨论 服务 器 级 别 的 
机 器 。 因 为 HBase 是 Java 编 写 的 ， 所 以 至 少 需 要 文 持 当前 的 Java 运 行 时 
环境 。region 服 务 器 的 内 存 主要 服务 于 内 部 数据 结构 ， 例 如 ，memstore 
和 块 缓存 ， 因 此 你 需要 安装 64 位 操作 系统 才能 分 配 和 使 用 大 于 4 GB 的 内 
存 空间 。 

在 实践 中 ， 为 了 能 够 像 MapReduce 一 样 有 效 地 利用 HDFS，HBase 大 
多 是 与 Hadoop 安 北 在 一 起 的 。 这 样 能 很 大 程度 地 减少 对 网 络 1/O 的 需 
求 ， 同 时 能 加 快 处 理 速度 。 当 在 同一 服务 器 上 运行 Hadoop 和 HBase 时 ， 
最 少 会 有 3 个 Java 进 程 (DataNode, TaskTracker#llRegionServer) 在 运 
行 ， 而 且 在 执行 MapReduce 作 业 时 ， 进 程 数 还 会 激增 。 要 有 效 地 运行 所 
有 这 些 进 程 ， 需 要 保证 拥有 一 定数 量 的 内 存 、 人 磁盘 和 CPU 资 源 。 


e 
一 因为 在 所 有 已 知 的 产品 系统 中 ，Hadoop 都 是 HBase 
的 后 备 存 储 ， 所 以 在 此 假设 读者 已 较 好 地 和 营 握 了 Hadoop。 如 
果 确 实 未 按 触 过 HBase 和 Hadoop， 建 议 先 从 最 基础 的 Hadoop 
开始 学 习 ， 哪 怕 先 了 解 点 皮毛 ， 这 里 推荐 一 本 Tom White 撰写 
的 《Hadoop 权 威 指南 〈 第 2 版 ) 》 供 大 家 参考 。 除 此 之 外 ， 需 
要 建立 正常 工作 的 HDFS 和 MapReduce 集 群 。 











鉴于 大 多 数 操作 系统 都 需要 一 定 的 空闲 资源 来 保证 工作 更 有 效 ， 
此 将 可 用 的 内 存 都 给 Java 进 程 是 不 明智 的 ， 例 如 ,磁盘 LO 缓冲 区 是 由 
Linux 内 核 维护 的 。HBase 间 接地 利用 了 己 有 的 本 地 磁盘 VO， 并 将 进程 
归属 于 同一 服务 嚣 ， 使 得 操作 系统 在 维持 自己 的 块 缓存 时 性 能 更 好 。 


我 们 将 需求 分 为 两 类 : 服务 器 和 网 络 化 。 下 面 首先 探究 的 是 服务 器 
人 硬件 方面 的 需求 ， 然 后 是 网 络 建立 所 需要 的 条 件 。 


1. 服务 器 


在 HBase 和 Hadoop 中 有 两 种 类 型 的 机 器 : master (HDFS 的 
NameNode、MapReduce 的 JobTracker， 以 及 HBase 的 Master) 和 
slave (CHDFS 的 DataNode、MapReduce 的 TaskTracker， 以 及 HBase 的 
RegionServer) 。 有 可 能 的 话 ， 两 类 机 器 的 硬件 配置 有 所 区 别 会 更 好 ， 
然而 ,为 了 省 事 ， 配 置 相同 的 情况 也 很 普遍 。 实 际 上 master 并 不 需要 大 
存储 空间 ， 因 此 不 需要 挂 载 过 多 的 磁盘 。 由 于 master 的 重要 性 大 于 
slave， 因 此 master 可 以 通过 元 余 来 提升 硬件 可 用 率 。 必 要 时 我 们 会 解释 
这 两 类 机 器 的 不 同 之 处 。 


由 于 Java 是 在 用 户 空 间 Cuserland) 运行 的 ， 所 以 可 以 在 每 一 个 支 
持 Java 运 行 时 的 操作 系统 上 运行 它 ， 虽 然 有 一 些 备 受 推荐 的 运行 Java 的 
操作 系统 ， 但 是 没有 用 户 干预 时 ，Java 将 无 法 运行 (详情 见 2.2.3 节 ) 。 
因此 ， 用 户 可 以 选择 的 人 硬件 供应 商 有 很 多 ， 甚 至 可 以 自己 组 狼人 硬 件 。 以 
下 是 通用 硬件 需求 的 要 求 。 


CPU 


使 用 单 核 CPU 机 器 ， 同 时 运行 3 个 或 者 更 多 的 Java 进 程 和 操作 系统 
的 服务 进程 是 不 合理 的 。 在 生产 系统 中 ， 通 常 采 用 的 是 多 核 处 理 器 包 
。 四 核 的 处 理 器 能 够 满足 需求 ， 但 六 核 的 处 理 器 更 受 欢迎 。 大 多 数 硬 件 
支持 一 个 以 上 的 CPU， 所 以 系统 可 以 使 用 两 个 四 核 CPU， 达 到 了 八 核 。 
这 样 每 一 个 基本 的 Java 进 程 都 可 以 独立 占有 一 个 核 ， 而 像 Java 垃 圾 回收 
(Garbage Collection, GC) 这 样 的 后 台 任 务 则 可 以 并 行 执行 。 此 外 还 有 
超 线程 (hyperthreading) ， 它 更 加 大 了 这 种 处 理 优势 。 


就 CPU 而 言 ，master 机 器 与 slave 机 器 的 规格 应 该 是 一 样 的 。 














推荐 


双 四 核 CPU，2.0 GHz 一 2.5 GHz 





双 四 核 CPU，2.0 GHz ~2.5 GHz 
内 存 


真正 的 问题 是 : 给 单个 进程 分 配 过 多 的 内 存 会 产生 问题 么 ? 在 理论 
上 不 会 ， 但 实践 证 明 ， 使 用 Java 时 ， 不 应 该 为 一 个 进程 设置 过 多 的 内 
存 。 内 存在 Java 术 语 中 称 为 堆 Cheap) ， 会 在 使 用 过 程 中 产生 许多 碎 
片 ， 在 最 坏 的 情况 下 ， 整 个 堆 需 要 重 写 一 次 ， 这 与 众所周知 的 磁盘 碎片 
整理 相似 ， 但 重 写 扒 不 能 在 后 台 运 行 。Java 运 行 时 环境 会 暂停 所 有 进程 
内 的 逻辑 并 进行 清理 ， 这 可 能 会 导致 不 少 问 题 〈 稍 后 详细 讨论 ) 。 设 置 
的 堆 越 大 ， 这 个 过 程 花 的 时 间 就 越 长 。 进 程 并 不 需要 大 量 的 内 存 ， 人 合适 
的 内 存 大 小 可 以 避免 上 述 问 题 ， 但 是 region 服 务 器 和 块 缓存 在 理论 上 没 
0 
MF A o 











| 
S 在 写 这 本 书 时 候 ， 一 般 认为 给 region 服 务 器 设置 超 

过 16 GB 的 堆 是 很 危险 的 。 一 旦 发 生 Full 垃 圾 回收 会 造成 很 长 
时 间 的 重 写 内 存 堆 操作 。 这 个 时 候 master 可 能 会 判定 进程 已 经 
死 控 ， 并 将 其 从 工作 列表 中 移 除 。 





这 种 情况 有 时 候 依 赖 于 使 用 的 JRE， 有 的 JRE 实 现 可 以 在 
垃圾 回收 时 不 阻 具 进 程 内 的 工作 线程 。 





表 2-1 展 现 了 一 个 非 第 基本 的 内 存 配 置 标准 。 值 得 注意 的 是 ， 这 仪 








仅 是 个 例子 ， 配 置 不 仅仅 高 度 依赖 集群 的 大 小 和 数据 写 入 量 ， 还 依赖 于 
用 户 的 访问 模式 ， 比 如 是 只 有 交互 式 访问 ， 还 是 交互 式 和 批量 处 理 混 合 
使 用 (如 MapReduce) 。 











表 2-1 拥有 800 TB 存储 空间 的 集群 中 每 个 Java 进 程 的 典型 内 存 配置 














= 


每 100 TB 的 数据 或 者 是 每 100 万 个 文件 大 约会 占 
用 NameNode 堆 1 GB 的 内 存 i 


在 内 存 中 重 做 主 NameNode 的 EditLog， 因 此 配置 
需要 与 NameNode 一 样 











SecondaryNameNode | 8 GB 


JobTracker oa ja 





poe fe i 


， 时 为 操作 系统 ( 乡 又 组 
HBase RegionServer F) a ao > 完 〈 绥 冲 区 组 





























余 内 存 除 以 允许 的 任务 最 大 的 单机 进程 数 


推荐 配置 master 机 器 要 运行 NameNode、SecondaryNameNode、 





JobTracker 和 HBase Master， 推 荐 24 GB 内 存 ; slave 机 器 要 运行 
DataNode、TaskTracker 和 HBase RegionServer， 推 荐 24 GB 内 存 及 以 上 的 


配置 。 











ron 

一 这 里 主要 是 建议 优化 内 存 通道 。 例 如 ， 使 用 双 通 道 

内 存 时 ， 每 台 机 器 应 该 配备 成 对 的 插 槽 (DIMM) ; 使 用 三 

通道 内 存 时 ， 每 台 机 器 配备 的 插 槽 个 数 应 该 是 3 的 倍数 。 这 可 
能 意味 着 机 器 可 以 用 18 GB (9x2 GB) 内 存 蔡 换 16 GB (4x4 

GB) 内 存 。 





这 不 仅仅 需要 服务 器 的 主板 文 持 ， 同 时 也 需要 CPU 兼 容 
这 种 模式 。 例 如 ， 有 的 CPU 只 兼容 双 通 道内 存 ， 即 使 主板 文 
持 三 通道 模式 ，CPU 也 只 能 在 双 通 道 模 式 下 工作 。 


磁盘 


数据 存储 在 slave 机 器 上 ， 因 此 slave 服 务 器 需要 大 量 的 存储 空间 。 用 
户 需 要 根据 主要 是 面 问 读 / 写 ， 还 是 面向 数据 加 工 ， 来 平衡 可 用 的 CPU 
内 核 数 量 与 磁盘 数量 的 使 用 。 通 稍 情 况 下 ， 用 户 应 该 保证 每 个 磁盘 上 至 
少 有 一 个 核 ， 所 以 在 8 核心 服务 器 增加 6 块 磁 盘 是 较 优 的 ， 加 入 更 多 磁盘 
可 能 并 不 会 带 来 显著 的 性 能 提升 。 





RAID 还 是 简单 JBOD? 


一 个 常见 的 问题 是 磁盘 如 何 挂 载 到 服务 器 上 。 这 里 要 
区 别 对 待 master 和 slave。 对 于 slave 来 说 ， 并 不 建议 使 用 
RAID 9 模式， 而 是 要 使 用 所 谓 的 JBOD © 模式 。RAID 比 
单个 磁盘 慢 ， 因 为 RAID 受 管理 开销 和 流水 线 写 能 力 的 限 
制 ， 并 取决 于 RAID 的 等 级 (通常 采用 的 RAID 模 式 是 RAID 
0， 这 种 数据 上 的 并 行 操 作 可 以 充分 利用 总 线 的 带宽 ， 显 著 
提高 磁盘 整体 存 取 性 能 ) ， 但 一 块 磁盘 出 现 故 障 会 使 得 所 
有 数据 节点 不 可 用 。 


对 master 节 点 来 说 ， 使 用 RAID 主 要 是 为 了 保护 关键 性 
的 文件 系统 数据 ， 通 常 的 配置 是 RAID 1+0 或 RAID 0+1。 


master 和 slave 一 定 要 使 用 带 RAID 固 件 (RAID 
firmware) 的 磁盘 。 这 类 磁盘 与 消费 级 磁盘 的 主要 区 别 是 ， 
一 且 便 件 出 错 ，RAID 固 件 马 上 失效 ， 因 此 DataNode 进 程 可 
以 快速 知道 发 生 了 故障 。 


还 要 考虑 磁盘 驱动 器 的 类 型 ， 例 如 ， 是 2.5 英 寸 还 是 3.5 英 寸 ? 是 
SATA 还 是 SAS? 一 般 更 推荐 使 用 SATA 驱 动 器 ， 因 为 SATA 比 SAS 更 节 
省 成 本 ， 虽 然 SAS 租 安全 性 高 于 SATA， 但 一 般 的 软件 策略 中 是 跨 机 架 
数据 宛 余 ， 因 此 可 以 放心 地 使 用 SATA 盘 。 实 际 使 用 哪 种 类 型 的 磁盘 驱 
动 器 ， 最 终 取 决 于 负担 得 起 哪 一 种 的 成 本 。 虽 然 3.5 英 寸 的 磁盘 比 2.5 英 
但 考虑 到 服务 器 机 架 的 因素 ， 你 可 能 会 选择 2.5 英 寸 的 
REE o 


通常 使 用 的 磁盘 大 小 是 1TB， 如 果 有 需要 也 可 以 使 用 2TB 的 磁盘 。 
使 用 6 一 12 个 配 有 1 TB 或 2 TB 磁盘 的 高 密度 服务 器 比较 好 ， 既 可 以 得 到 
较 高 的 存储 容量 ， 又 拥有 足够 CPU 内 核 的 BOD 模 式 ， 以 获得 较 高 的 磁 


He AYES 
HHT Hi o 








节点 类 型 推荐 





4x1 TB SATA, RAID 0+1 (也 可 以 用 2TB 的 ) 


IOPS 





磁盘 的 数量 是 影响 每 秒 进 行 读 写 操作 次 数 AO 
Operation Per Second, IOPS) 的 重要 指标 。 例 如 ， 一 般 使 
用 4x1 TB 的 磁盘 比较 好 ， 这 种 方式 可 以 使 节点 的 IOPS 达 到 
400 次 ， 即 400 MB/s 的 传输 否 吐 量 ， 非 常 适合 冷 数据 的 访问 








如 果 有 更 高 的 需求 还 可 以 使 用 8x500 GB 的 磁盘 ， 这 样 
每 个 节点 的 磁盘 吞吐 量 能 够 达到 800IO PS/s, Beit FIEWA 
网 的 线路 速率 。 总 之 ， 需 要 结合 具体 需求 并 采用 适量 的 磁 
盘 来 实现 目标 。 


HLA 


实际 上 ， 服 务 器 机 架 (chassis) 不 是 至 关 重 要 的 因素 ， 机 架 的 价格 
里 然 不 同 ， 但 提供 的 功能 大 体 类 似 。 对 于 通用 服务 器 来 说 ， 一 般 情况 下 
最 好 是 回避 具有 专 有 功能 和 选项 的 特殊 硬件， 这样 这 些 服务 器 惑 可 以 根 
据 需 求 通过 简单 的 组 合 ， 达 到 扩容 集群 容量 的 目的 。 


就 网 络 而 言 ， 推 荐 使 用 双 端 口 千 兆 以 太 网 卡 ， 即 双 通 起 绑 定 网 卡 。 
如 果 已 经 能 够 文 持 万 兆 网 或 者 无 限 市 宽 InfiniBand) R, MEA 

















犹豫 地 使 用 它 。 


slave 采 用 一 个 电源 供应 器 (Power Supply Unit, PSU) 就 够 了 ， 但 
master 节 点 应 该 使 用 了 见 余 的 PSU， 如 双 PSU。 

从 硬件 部 署 密度 来 看 ， 机 架 单元 〈 简 称 U) 越 少 越 好 。 通 党 1U 和 2U 
的 服务 器 部 署 在 19 英 寸 的 机 架 中 。 在 选择 机 架 大 小 时 要 考虑 的 是 ， 能 容 
纳 多 少 磁盘 以 及 它们 的 能 源 消耗 。 通 常 1U 的 服务 器 适合 挂 载 较 少 的 磁 
盘 ， 或 者 为 了 达到 容量 要 求 只 能 用 2.5 英 寸 的 磁盘 。 


pee pran psU, in 或者 20 





ne pan PSU, usu 





2. 网 络 


数据 中 心里 ， 服 务 器 通 癌 是 挂 载 在 19 英 寸 的 机 架 上 ， 这 种 机 架 能 容 
纳 40U 甚 至 更 多 ， 用 户 可 以 使 用 置顶 式 (Top-of-Rack, ToR) 交换 机 将 
40 台 机 器 《〈 放 在 半边 机 架 上 ) 连接 在 一 起 〈 有 些 公 司 使 用 一 个 整体 机 架 
挂 载 80 台 机 器 ， 每 边 40 台 ) 。 如 果 每 台 服 务 器 用 的 都 是 干 光 网卡 ， 那 么 
要 确保 ToR 交 换 机 有 足够 快 的 速度 处 理 服务 器 创建 的 吞吐 。 通 党 交换 机 
ee ee 换 句 话说 ， 理 论 上 承诺 的 实际 
j 、 全 上 。 


交换 机 通常 有 24 或 48 个 端口 ， 配 有 前 面 提 到 的 通道 绑 定 技术 及 双 端 
口 网 卡 ， 用 户 需 要 保证 交换 机 连 网 的 规模 足够 大 ， 从 而 能 够 提供 足够 的 
人 带宽。 安装 40 个 1U 服 务 器 需要 80 个 网 络 端口 ， 所 以 在 实践 中 需要 设置 
多 个 机 架 交 换 机 交错 使 用 ， 然 后 汇总 到 一 个 更 大 的 核心 汇聚 交换 机 
(Core Aggregation Switch, CaS) 。 最 终 得 到 一 个 两 层 (two-tier) 38 
构 ， 由 ToR 交 换 机 分 配 ，CaSs 汇 聚 。 


尽管 不 能 满足 所 有 的 大 规模 安装 需求 ， 但 我 们 要 知道 这 是 一 种 千 用 
的 设计 模式 。 鉴 于 运 维 是 规划 的 一 部 分 ， 因 此 用 户 需 要 知道 有 多 少数 据 


要 存储 ， 有 多 少 客户 端 并 发 该 写 ， 然 后 计算 出 需要 多 少 台 服 务 器 ， 基 后 
还 要 考虑 每 合 服务 器 的 联网 能 


用 户 通 过 公开 的 邮件 列表 或 其 他 渠道 报告 了 HBase 的 一 些 问 题 ， 反 
映 得 比较 多 的 是 ，LIO 性 能 在 批量 插入 大 量 数据 的 时 候 比 预 期 的 要 差 ， 
很 显然 ， 这 是 连 网 问题 导致 的 。 而 导致 连 网 问题 的 原因 可 能 是 连 网 配置 
不 当 或 者 使 用 了 错误 的 网 络 接口 卡 (Network Interface Card, NIC) ， 
也 可 能 是 服务 器 的 数据 吞吐 量 完全 超出 了 交换 机 的 载荷 。 一 定 要 仔细 验 
证 集群 的 每 个 硬件 组 件 ， 从 而 避免 突然 出 现 的 故障 问题 ， 这 些 问题 本 来 
束 可 以 通过 合适 的 硬件 配置 避 人 兔 。 


最 后 ， 目 前 Hadoop 和 HBase 的 安全 功能 是 内 置 的 ， 通 种 整个 集群 都 
人 Na 
Jim o 


2.2.2 ”软件 
讨论 了 所 需要 的 和 硬件， 也 购买 了 服务 器 ， 现 在 要 讨论 一 下 软件 了 。 


除了 要 考虑 底层 的 操作 系统 ， 还 要 考 碟 操作 系统 挂 载 的 文件 系统 以 及 各 
种 其 他 服务 的 配置 。 


| W IF 
一 大 多 数列 出 的 需求 都 不 依赖 于 HBase， 都 是 在 底 
层 、 操 作 层 中 用 到 的 。 管 理 员 可 以 在 应 用 过 程 中 验证 该 问 


je 


























1. 操作 系统 


推荐 操作 系统 COS) 是 一 件 非常 赤 手 的 事情 ， 尤 其 是 在 开源 领域 
中 。 在 过 去 的 两 三 年 里 ， 好 像 HBase 偏 好 使 用 Linux 系 统 工作 ， 事 实 上 ， 
Hadoop 与 HBase 本 来 就 是 基于 Linux 系 统 或 者 Unix 系 统 开 发 的 ， 还 可 以 
在 其 他 的 类 Unix 系 统 上 运行 。 不 过 ， 用 户 可 以 在 文 持 Java 的 任何 一 个 OS 


中 运行 Hadoop 和 HBase， 例 如 ，Windows， 不 过 Hadoop 和 HBase 的 测试 
只 能 在 类 Unix 系 统 上 进行 ， 原 因 是 局 动 与 关闭 等 管理 脚本 都 是 由 Linux 
或 Unix 命 令 行 Shell 提 供 的 。 


Unix 与 类 Unix 系 统 的 区 别 是 开源 免费 与 财源 收费 。 此 外 ， 这 两 类 系 
统 都 能 用 ， 有 具体 用 哪个 就 看 用 户 所 在 公司 的 具体 规定 了 。 以 下 是 可 以 文 
持 HBase 集 群 的 操作 系统 列表 。 


CentOS 


CentOS 是 一 个 社区 文 持 的 免费 软件 操作 系统 ， 基 于 红 帆 的 企业 版 
Linux 操 作 系 统 (Red Hat Enterprise Linux, RHEL) 改造 而 来 。CentOS 
利用 红 帽 为 其 自身 企业 提供 的 源 代 码 包 ， 创 建 了 相应 CentOS 的 各 个 部 
件 ， 从 而 镜像 了 RHEL 的 功能 、 特 性 并 按 等 级 发 布 包 。 类 似 于 RHEL， 
它 提 供 了 RPM 格 式 的 软件 包 。 


由 于 CentOS 也 侧重 于 企业 应 用 ， 所 以 版 本 更 新 不 会 太 快 。 它 的 目标 
是 应 用 于 大 型 基础 设施 ， 因 此 不 必 考 虑 短期 的 小 增 量 包 更 新 。 








Fedora 


Fedora 也 是 由 一 个 社区 支持 的 ， 红 帽 公 司 赞助 的 免费 开源 操作 系 
统 。 但 与 RHEL 和 CentOS 相 比 ，Fedora 是 一 个 全 新 的 技术 平台 ， 致 力 于 
推进 新 的 思路 和 特性 。 因 此 ， 与 面 同 企业 的 产品 相 比 ，Fedora 的 发 布 周 
期 更 短 ， 平 均 每 13 个 月 就 会 更 新 一 次 版 本 。 


事实 上 ， 它 是 针对 工作 站 设计 的 ， 经 常会 利用 到 Fedora 的 一 些 新 特 
性 ， 不 过 流行 程度 与 面向 桌面 的 操作 系统 © 相 比 略 逊 一 筹 。 在 生产 中 
使 用 Fedora 要 考虑 到 单一 版 本 生命 周期 短 的 因素 ， 还 需要 考虑 使 用 一 个 
稳定 版 本 ， 而 不 使 用 最 新 发 布 的 Fedora 版 本 ， 同 时 依靠 社区 的 力量 修复 


问题 。 














Debian 


Debian 是 另 一 个 基于 Linux 内 核 的 操作 系统 ， 拥 有 免费 开源 的 软件 
升级 包 。Debian 可 用 于 桌面 系统 以 及 服务 器 系统 ， 但 是 Debian 社 区 的 升 
级 更 新 策略 相对 保守 ， 所 有 包 文 件 都 需要 经 过 充分 的 测试 ， 且 被 视 为 稳 
定 后 ， 才 会 发 布 Debian 的 新 版 本 。 











与 其 他 操作 系统 不 同 ，Debian 虽 然 没 有 商业 实体 文 持 但 是 却 有 独立 
的 项 目 规范 。 它 有 一 套 独立 的 安装 包 规 则 ， 并 且 只 文 持 后 缀 名 为 DEB 的 
. Debian 能 够 在 多 种 硬件 平台 上 运行 ， 并 且 拥 有 一 个 非常 庞大 的 类 


Ubuntu 


Ubuntu 是 一 个 基于 Debian 的 Linux 分 支 系统 。Ubuntu 是 一 款 由 
Canonical 公 司 提供 支持 的 免费 并 开源 的 软件 ，Canonical 公 司 的 目的 并 不 
是 销售 软件 而 是 销售 Ubuntu 服 务 ， 并 提供 技术 支持 。 


Ubuntu 的 发 布 周 期 长 短 结合 ， 架 面 版 本 采用 3 年 的 长 周期 (Long- 
Term Support，LTS) 更 新 集 略 ， 服 务 器 版 本 采用 5 年 的 长 周期 更 新 策 
略 。Ubuntu 的 安装 包 昌 然 是 DEB 格 式 的 ， 但 却 是 基于 Debian 的 不 稳定 分 
X: 在 某 种 意义 上 看 ，Ubuntu 与 Debian 的 关系 和 Fedora 与 红 帽 的 关系 类 
似 。 事 实 上 ， 由 于 Ubuntu 关键 模块 的 更 新 过 于 频繁 ， 所 以 Ubuntu 很 难 被 
用 作 服 务 器 操作 系统 。 











Solaris 


Solaris 是 由 Oracle 公 司 提供 的 有 限 可 用 平台 。 它 的 前 映 是 Unix V4 版 
本 ， 因 此 它 与 其 他 的 操作 系统 有 很 大 的 不 同 。Solaris 中 部 分 源 代码 是 开 
源 的 ， 其 余 则 是 闭 源 的 。Solaris 是 一 个 商业 化 产品 ， 需 要 经 过 购买 才能 
使 用 ， 每 个 购买 到 的 Solaris 厂 本 都 能 够 得 到 10 年 至 12 年 的 商业 文 持 。 


Red Hat Enterprise Linux 

简称 RHEL，Red HatLinux 发 行 版 的 目的 在 于 支持 商业 和 企业 级 用 
户 ， 分 为 服务 器 和 吕 面 版 本 ， 官 方 还 提供 了 产品 培训 和 产品 认证 计划 许 
可 证 。 


RHEL 的 安装 包 被 称 为 RPM (Red Hat Package Manager， 红 帽 软 件 
包 管 理 器 ) ， 由 .rpm 格式 的 文件 和 自身 的 包 管 理 器 组 成 。 


RHEL 提 供 了 非常 长 的 商业 文 持 周期 ， 大 概 有 7 一 10 年 。 


本 本 
sy 上 
一 当 用 户 需要 选择 服务 器 操作 系统 时 需要 考虑 现 有 的 
基础 设施 ， 并 选择 一 个 与 现 有 设施 相 适 应 的 操作 系统 。 


我 们 推荐 大 部 分 运行 HBase 的 生产 系统 使 用 CentOS 或 
RHEL. 


2. 文件 系统 


与 选择 操作 系统 一 样 ， 对 于 用 户 来 说 ， 磁 盘 文件 系统 也 有 多 种 选 
择 。 但 是 ， 实 际 上 大 量 缺 乏 公 开 可 用 的 经 验 数据 用 于 比较 HBase 采 用 不 
同文 件 系 统 的 效果 。 比 较 常 见 的 文件 系统 有 ext3、ext4 以 及 XFS， 用 户 
也 可 以 使 用 其 他 的 文件 系统 。 一 些 HBase 的 用 户 则 反馈 了 他 们 针对 其 中 
一 些 文件 系统 的 研究 结果 ， 但 是 在 生产 环境 中 使 用 这 些 文件 系统 需要 经 
过 足够 的 测试 。 以 下 是 较 常 用 的 文件 系统 上 的 一 些 注意 事项 。 


| 从 l. 
一 需要 注意 这 里 提 到 的 文件 系统 是 HDFS 的 数据 节点 
依赖 的 本 地 文件 系统 ， 而 HBase 是 直接 与 HDFS 打 交道 的 。 








ext3 


Linux 操 作 系 统 中 使 用 最 普遍 的 文件 系统 是 ext3〈 详 情 见 链接 
http://en.wikipedia.org/wiki/Ext3 ) 。 它 已 经 被 证 明 是 稳定 可 靠 的 文件 系 
统 ， 这 意味 着 生产 机 器 中 采用 ext3 为 本 地 文件 系统 是 一 个 相对 安全 的 选 
择 。 目 从 2001 年 ext3 成 为 Liunx 一 部 分 以 来 ，ext3 一 直 在 稳步 提升 ， 并 且 














多 年 来 一 直 是 Linux 系 统 的 默认 文件 系统 。 


用 户 在 使 用 ext3 时 需要 切记 以 下 几 点 优化 。 首 先 用 户 在 挂 载 文件 系 
统 时 应 该 设置 noatime 属性 来 禁止 记录 文件 访问 时 间 戳 以 减少 内 核 的 管 
理 开 销 。HBase 不 需 et i 并 且 禁 用 这 个 选项 可 
以 大 幅度 提高 磁盘 的 读 取 性 能 


局 

tt i 

一 禁止 记录 最 近 一 次 文件 访问 时 间 戳 能 够 提升 性 能 
并 且 是 推荐 的 配置 。 挂 载 选项 通常 配置 在 /etc/fstab 文件 中 。 
下 面 一 行 是 关于 Linux 设 置 noatime 选项 的 例子 : 


/dev/sdd1 /data ext3 defaults,noatime © 6 


请 注意 上 述 描述 页 包含 了 nodiratime 的 配置 选项 。 




















另 一 个 优化 是 为 了 更 好 地 利用 ext3 提 供 的 磁盘 空间 。 默 认 情 况 下 ， 
磁盘 每 个 块 都 为 天 键 系统 进程 保留 了 一 个 固定 的 空间 ， 以 保证 在 磁盘 存 
储 已 满 的 情况 下 不 影响 关键 进程 的 使 用 。 这 个 功能 对 关键 磁盘 比较 有 
用 ， 比 如 操作 系统 依赖 的 磁盘 ， 但 这 个 功能 对 于 数据 存储 盘 来 说 几乎 无 
用 ， 并 且 对 一 个 大 型 集群 中 的 可 用 存储 空间 造成 了 极 大 的 影响 。 








一 一 用 户 在 ext3 中 可 以 使 用 Linux 提 供 的 命令 行 工 

具 tune2fs 减少 保留 块 的 数量 以 获取 更 多 的 可 用 磁盘 空间 。 
默认 情况 下 每 块 磁盘 的 保留 块 数量 是 5%， 但 可 以 安全 地 减少 
到 1% (其 至 0%) 。 以 下 是 所 需 使 用 的 命令 : 


tune2fs -m 1 < device-name> 


用 户 需 要 使 用 被 处 理 的 磁盘 替换 <device-name> ， 例 
如 /dev/sdd1 。 所 有 数据 存储 盘 上 设置 -m 1 定义 保留 块 的 比 
例 ， 例 如 ， 使 用 -m © 就 可 以 设置 保留 块 数量 为 0。 





Wid: 这 种 设置 只 适用 于 数据 存储 磁盘 ， 不 适用 于 操作 
系统 依赖 的 磁盘 ， 更 不 适用 于 master 节 点 上 的 任何 磁盘 ! 


Yahoo! 曾 公 开 表 示 ext3 是 它们 的 大 型 Hadoop 和 集群 的 首选 文件 系 
统 。 这 说 明 ext3 虽 然 不 是 迄今 为 止 最 主流 最 新 的 文件 系统 ， 但 它 在 大 型 
集群 中 表现 很 好 。 事 实 上 ， 用 户 使 用 ext3 的 过 程 中 ， 其 他 级 别 的 栈 的 极 
限 会 比 IO 极 限 更 先 到 达 。 


ext3 的 最 大 缺点 是 服务 器 月 动 过 程 需 要 消耗 很 多 的 时 间 。ext3 的 格 
式 化 磁盘 操作 会 花费 数 分钟 时 间 ， 这 对 机 器 中 定期 同上 旋转 磁盘 可 能 会 
造成 不 必要 的 膝 烦 一 一 尽管 这 不 是 常用 的 操作 。 











ext4 


ext3 的 下 一 代 是 ext4( 详 见 链接 http://en.wikipedia.org/wiki/Ext4 ) , 
ext3 与 ext4 最 初 基于 相同 的 代码 ， 但 ext4 随 后 被 移动 到 独立 的 项 目 。2008 
年 以 后 ext4 正 式 成 为 官方 Linux 内 核 的 一 部 分 。ext4 只 经 过 了 几 年 光景 束 
达到 了 这 个 程度 ， 足 以 证 明 其 稳定 性 和 可 靠 性 。 不 仅 如 此 ，Google 已 经 
宣布 把 其 存储 基础 设施 从 ext2 升 级 到 ext4， 这 可 以 认为 是 一 个 极其 有 
震撼 力 的 消息 ， 并 表明 了 ext 系 列 文件 系统 〈ext3、ext4 等 ) 可 以 在 不 转 
eee 然而 ， 选 择 其 他 文件 系统 如 XFS 则 做 不 到 
这 种 升级 。 


从 性 能 方面 来 说 ，ext4 打 败 了 ext3 并 接近 了 高 性 能 文件 系统 XFS， 
同时 还 拥有 很 多 高 级 特性 ， 例 如 ， 能 够 允许 单 文件 达到 16 TB 的 大 小 
并 ， 支 持 EB (1018 字 节 ) 的 存储 空间 。 


ext4 中 一 个 更 重要 的 特性 是 延迟 分 配 (delayed allocation) ， 我 们 
建议 用 户 在 Hadoop 和 HBase 中 将 其 关闭 。 采 用 延迟 分 配 策略 的 数据 会 保 
留 在 内 存 中 ， 并 会 在 内 存 中 保留 奋 干 数据 块 ， 直 到 数据 最 终 被 刷 写 到 磁 
盘 。 这 个 特性 会 帮助 块 中 的 文件 保持 连续 ， 并 在 某 一 时 刻 整体 写 入 到 夏 
盘 的 连续 块 中 。 这 个 特性 减少 了 磁盘 碎片 并 提高 了 文件 读 取 性 能 。 但 另 
一 方面 ， 它 增加 了 在 服务 器 月 尝 时 数据 丢失 的 概率 。 


XFS 


Linux 在 同一 时 间 段 开始 文 持 ext3 与 XFS 详情 见 链接 
http://en.wikipedia.org/wiki/Xfs ) 。XFS 最 初 是 在 1993 年 由 Silicon 
Graphics 公 司 研发 的 ， 运 今 为 止 大 多 数 Linux 己 经 文 持 XFS。 


它 与 ext4 功 能 类 似 ， 例 如 ， 分 别 有 extents (分 组 存储 块 ， 减 少 每 个 
文件 需要 保持 的 块 数 ) 以 及 上 面 提 到 的 延迟 分 配 。 


XFS 一 个 很 大 的 优势 是 ， 它 引导 服务 器 时 格式 化 非 第 快 ， 这 样 可 以 
有 效 地 减少 使 用 磁盘 组 建新 服务 右 的 时 间 。 


另 一 方面 来 说 ，XFS 也 有 缺点 。 在 XFS 的 设计 中 有 一 个 众所周知 的 
缺点 ， 它 的 一 些 操作 牵涉 到 了 元 数据 的 变更 ， 比 如 删除 大 量 文件 的 操 
作 。 不 过 开发 人 员 已 经 开始 着 手 解决 这 个 问题 ， 并 且 提 交 了 一 些 修复 。 
使 用 HBase 时 一 定 要 仔细 核实 可 能 会 出 问题 的 关键 点 ， 否 则 极 有 可 能 影 











啊 使 用 。 不 过 HBase 需 要 操作 的 文件 一 般 少 而 大 ， 因 此 用 户 在 XFS 上 不 
会 受到 太 多 的 限制 。 


ZFS 


ZFS (详情 见 http://en.wikipedia.org/wiki/ZFS ) 是 由 Sun 公 司 研发 并 
在 2005 年 推出 的 文件 系统 。 这 个 名 字 是 Zettabyte File System 的 缩写 ， 
为 它 有 能 力 存 储 258 ZB (大 概 是 1021 字 节 ) 。 


ZFS 主 要 被 Solaris 操 作 系 统 支 持 ， 不 过 ZFS 拥 有 非常 适合 HBase 应 用 
场景 的 高 级 功能 。 它 支持 内 置 的 压缩 ， 可 以 人 符 换 HBase 中 以 插件 形式 提 
供 的 压缩 功能 。 

选择 文件 系统 与 选择 操作 系统 一 样 都 需要 适合 用 户 现 有 的 基础 设 
施 。 不 经 过 测试 和 比较 ， 仅 靠 单 纯 的 数字 ， 是 很 难 做 出 选择 的 。 如 果 用 
户 要 选择 的 话 ， 我 们 建议 选择 比较 新 的 文件 系统 ， 如 ext4 或 XFS， 它 们 
迟早 会 取代 ext3， 并 且 比 其 他 旧版 本 的 文件 系统 更 容易 扩展 。 





我 们 不 建议 在 一 台 服 务 器 上 安装 不 同 的 文件 系统 。 
内 核 可 能 需要 分 割 缓 冲 区 来 文 持 不 同 的 文件 系统 ， 进 而 影响 
性 能 ， 据 报道 这 样 做 可 能 会 对 菏 些 操作 系统 有 破坏 性 的 性 能 
影响 。 如 果 你 已 经 挂 载 了 混合 文件 系统 ， 请 务必 和 仔细 测试 这 


个 问题 。 


3. Java 


不 得 不 提 的 是 Java! 需要 Java 才 能 运行 HBase，Java 1.6 以 及 更 高 的 
版 本 才能 很 好 地 文 持 HBase。 最 佳 的 选择 就 是 使 用 Oracle 公 司 推荐 的 版 
本 (原来 是 Sun 公 司 ， 后 来 Oracle 收 购 了 Sun 公 司 ) ， 详 情 见 链接 
http:/www.java.com/download/ 。 


用 户 应 该 确保 Java 二 进 制 文件 可 执行 ， 并 且 可 执行 的 类 库 目 录 中 能 
找到 这 些 文 件 。 在 命令 行 中 输入 java -version 可 以 获取 已 安装 的 Java 
版 本 信息 ， 同 时 可 以 确认 安装 是 否 正 常 。 例 如 ， 执 行 java -version 
可 以 得 到 正常 输出 "1.6.6 .22"。 通 常 ， 用 户 使 用 最 新 的 Java 版 本 时 会 
辜 到 一 些 意 想不到 的 问题 〈 例 如 ，1.6.0_18 版 本 存在 JVM 随 机 骨 溃 的 问 
题 )》 ， 因 此 用 户 最 好 沦 试 一 个 稍 旧 的 版 本 。 


如 采 HBase 警 告 无 法 找到 可 执行 的 Java 安 装 路 径 〈 见 例 2.1〉 就 需要 
在 conf/hbase-env.sh 文件 中 编辑 JAVA HOME 这 一 行 ， 设 置 正确 的 Java 安 
装 路 径 。 


例 2.1 HBase 局 动 时 无 法 找到 可 执行 的 Java 安 装 路 径 ， 从 而 打印 的 错 


误 信息 

















| Please download the latest Sun JDK from the Sun Java web site 
> http://java.sun.com/javase/downloads/ 


HBase requires Java 1.6 or later. 
NOTE: This script will find Sun Java whether you install using the 


binary or the RPM based installer. 





WA 


we a 
一 一 提供 的 脚本 会 在 系统 的 默认 类 库存 放 目录 寻找 
Java， 所 以 大 部 分 情况 下 它 都 能 自动 找到 系统 安装 的 Java。 如 











果 没 有 找到 已 安装 的 Java 运 行 时 环境 ， 则 极 有 可 能 是 没有 安 
装 Java 运 行 时 环境 。 此 时 ， 就 要 从 上 述 的 下 载 链接 下 载 Java 安 
装 程序 ， 并 阅读 操作 系统 手册 学 习 如 何 安 逆 Java。 


4. Hadoop 


目前 HBase 只 能 依赖 特定 的 Hadoop 版 本 ， 其 中 的 主要 原因 之 一 是 
HBase 与 Hadoop 之 间 的 远程 过 程 调 用 (Remote Procedure Call, RPC) 
API，RPC 协 议 是 版 本 化 的 ， 并 且 需 要 调用 方 与 被 调用 方 相互 匹 配 ， 细 
微 的 差异 就 可 能 导致 通信 失败 。 


当前 HBase 仅 仅 依 赖 Hadoop 0.20.x 系 列 ( 
http://hadoop.apache.org/common/release.html ) ， 而 不 能 运行 在 Hadoop 
0.21.X 和 0.22.X 系 列 上 。 运 行 在 不 文 持 sync 功 能 的 HDFS 上 ，HBase 可 能 会 
在 灾难 性 场景 中 丢失 数据 。Hadoop 0.20.2 与 Hadoop 0.20.203.0 并 不 支持 
这 个 功能 ， 只 有 分 支 branch-0.20-append 支 持 该 功能 。 目前 为 止 官方 
所 有 发 布 版 本 都 不 是 从 这 个 分 文 发 展 而 来 的 ， 因 此 最 好 直接 使 用 branch- 
0.20-append 分 文 。 访 问 Hadoop How To Release ( 
Poan a i dnt 以 获得 如 何 编译 Hadoop 工 
程 的 信息 。 


另 一 种 选择 是 使 用 已 经 打 了 对 应 补丁 的 Hadoop 工 程 ， 例 如 用 户 可 以 
使 用 Cloudera 的 CDH3 版 本 〈 http://archire.cloudera.com/docs/ ) > CDH 
己 经 打 入 了 0.20-append 中 增加 持久 化 sync 功 能 的 补丁 。 更 多 细节 见 附 录 
DD 中 关于 Cloudera 的 内 容 。 


由 于 HBase 依 赖 于 Hadoop， 它 要 求 Hadoop 的 JAR 必 须 部 署 在 HBase 
的 lib 目录 下 。 默 认 依 赖 的 Hadoop 的 JAR 是 从 Apache branch-0.20-append 
这 个 分 文 编译 出 来 的 。 关 键 之 处 在 于 HBase 使 用 的 Hadoop 版 本 必须 与 底 
层 Hadoop 和 集群 上 使 用 的 Hadoop 版 本 一 致 ， 使 用 Hadoop 集 群 正在 运行 的 
JAR (hadoop-xyz.jar ) ##HBaselJlib 目录 中 依赖 的 Hadoop 的 JAR 可 以 
避免 版 本 不 匹配 问题 ， 此 外 必须 确认 集群 中 所 有 的 节点 都 需要 更 新 为 一 
样 的 AR， 否 则 版 本 不 匹配 问题 会 造成 集群 无 法 局 动 或 假死 现象 。 
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HBase 类 库 中 默认 Hadoop 的 JAR 只 能 在 单机 模式 中 
使 用 。 


为 一 种 选择 就 是 Hadoop 和 集群 使 用 HBase 中 默认 Hadoop 的 JAR 启 动 ， 
但 是 这 种 方式 没有 经 过 广泛 的 测试 ， 用 户 的 实际 使 用 情况 可 能 不 同 。 


ra 
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N A Ly \、 一 /一 eye aa 5 
“ HBase 能 够 运行 在 任意 奶 加 了 安全 功能 的 Hadoop 
0.20.x 系 列 上 一 一 例如 CDH3 只 要 按照 以 上 的 步骤 替换 


Hadoop 的 JAR 为 附带 安全 版 本 的 HBase 就 可 以 了 。 











5. SSH 


如 果 用 户 需 要 通过 脚本 来 管理 Hadoop 与 HBase 进 程 必须 要 安装 ssh 并 
运行 sshd 。 常 用 的 并 可 以 提供 这 些 命令 的 软件 包 是 OpenSSH ， 详 情 见 
http:/www.openssh.com/ 。 但 是 ， 首 先 请 查看 你 的 操作 系统 ， 它 很 可 能 
已 经 提供 了 二 进 制程 序 的 安装 功能 ， 且 不 需要 重新 编译 。 在 Ubuntu 工作 
站 可 以 这 样 使 用 : 











$ sudo apt-get install openssh-client 








在 服务 器 上 还 应 该 安 闭 与 之 匹配 的 服务 器 软件 包 : 


$ sudo apt-get install openssh-server 





用 户 必 须 能 够 通过 密码 登录 ， 并 ssh 跳 转 到 所 有 节点 ， 包 括 本 地 节 
点 。ssh 需 要 有 一 个 公共 密 钥 一 要么 是 用 户 已 经 在 使 用 的 〈 见 home 目 
录 中 的 .ssh 目 录 ) 或 者 新 生成 一 个 一 一 每 个 服务 器 上 都 需要 添加 用 户 公 
共 密 铀 ， 这 就 可 以 让 脚本 可 以 疫 有 阻碍 地 访问 任意 一 全 远程 服务 器 。 
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一 一 HBase 提 供 的 Shell 脚 本 需要 通过 SSH 将 命令 发 送 到 
集群 中 的 每 个 服务 器 中 并 执行 ， 因 此 强烈 建议 不 要 使 用 简单 
的 密码 验证 ， 而 应 该 使 用 公共 密 钥 认证 ! 


当 用 户 创 建 密 钥 对 时 ， 同 时 应 该 创建 一 个 口令 以 保护 私 
钥 。 每 一 个 命令 的 口令 发 都 需要 发 送 到 远程 服务 器 中 ， 为 了 
避免 典 烦 建议 使 用 ssh-agent， 它 是 一 个 SSH 助 手 ， 能 够 帮助 用 
户 只 输入 一 次 密码 就 可 以 连续 处 理 请 求 。 


理想 的 情况 下 ， 用 户 还 可 以 使 用 内 置 的 代理 转发 (agent 
forwarding) 命令 ， 它 可 以 帮助 用 户 从 集群 中 的 市 点 登录 到 其 
他 远程 服务 器 。 


6. 域名 服务 


HBase 使 用 本 地 域名 汇报 IP 地 址 。 正 同 与 反 同 DNS (Domain Name 
Service， 域 名 服务 ) 均 可 以 工作 ， 用 户 可 以 通过 以 下 命令 验证 正 同 DNS 
的 正确 性 : 


$ ping -c 1 $(hostname) 





用 户 需 要 确保 服务 器 使 用 了 公共 IP 地 址 ， 而 不 是 环 路 地 址 
127.0.0.1。 出 现 这 种 情况 的 典型 原因 是 /etc/hosts 文 件 配 置 不 正确 ， 其 中 
包含 了 计算 机 域名 到 环 路 地 址 的 映射 。 


如 果 用 户 的 服务 器 有 多 个 接口 ，HBase 将 使 用 主要 接口 解析 域名 。 
如 果 这 些 不 够 用 ， 用 户 可 以 通过 设 
置 hbase.regionserver.dns.interface 〈 见 2.6 节 如 何 配置 参数 的 内 
容 ) 指出 主 接口 ， 但 这 样 做 的 前 提 是 集群 内 的 配置 必须 是 一 致 的 ， 且 所 
有 主机 要 有 相同 的 网 络 接口 配置 。 


另 一 种 方法 是 设置 hbase.regionserver.dns.nameserver 以 选 
择 与 系统 默认 配置 不 同 的 域名 服务 器 。 


7. 同步 时 间 


集群 中 节点 的 时 间 必 须 是 一 致 的 ， 稍 微 有 一 点 时 间 侦 差 是 可 以 容忍 
的 ， 但 是 偏差 较 多 会 产生 一 些 奇 怪 的 行为 ， 仪 仅 一 分 钟 的 偏差 就 有 可 能 
使 集群 产生 莫名其妙 的 行为 。 所 以 ， 用 户 需 要 在 集群 中 运行 NTP ( 
http://en.wikipedia.org/wiki/Network_Time_Protocol ) 或 同等 功能 的 应 用 
来 同步 集群 的 时 间 。 


如 果 在 运行 正常 的 集群 中 读 取 数据 时 发 生 了 一 些 奇 怪 的 行为 ， 请 检 
查 下 集群 的 系统 时 间 ! 

















8. 文件 句柄 和 进程 限制 


HBase 是 数据 库 ， 它 会 同时 使 用 很 多 文件 。 在 Unix 或 其 他 类 Unix 系 
统 中 ， 默 认 的 ulimit-n 是 1024， 但 这 个 值 这 不 够 。 任 何 大 量 的 加 载 操 
作 都 会 导致 显而易见 的 O 异 常 : java.io.IOException: Too many 
open files 。 还 有 如 下 类 似 的 异常 信息 : 








2010-04-06 93:04:37,542 INFO org.apache.hadoop.hdfs.DFSClient: Exception 
in createBlockOutputStream java.io.EOFException 
2010-04-06 03:04:37,542 INFO org.apache.hadoop.hdfs.DFSClient: Abandoning 


block blk_-6935524980745310745_1391901 














te P 
一 所 有 错误 信息 都 会 被 记录 在 日 志文 件 中 。 详 情 见 
12.5.2 六 ， 该 节 介 绍 了 如 何 分 析 这 些 日 志 内 容 。 





用 户 需 要 改变 文件 描述 符 的 数量 上 限 ， 将 上 限 设置 为 超过 10000 的 
数字 。 要 清楚 这 个 参数 是 运行 HBase 的 操作 系统 参数 ， 而 不 是 HBase 的 
配置 。 此 外 ， 一 个 第 见 的 错误 是 管理 员 为 特定 的 用 户 增 加 了 文件 描述 
符 ， 但 HBase 却 是 用 其 他 账户 运行 的 。 


用 户 可 以 大 致 估算 所 需 的 文件 句柄 数 ， 如 下 所 示 : 
每 个 列 族 至 少 有 一 个 存储 文件 ， 一 个 已 加 载 的 region 可 能 有 多 
达 5 或 6 个 文件 ， 且 平均 每 个 列 族 有 2 或 3 个 存储 文件 。 为 了 确 
定 所 需 的 文件 句柄 数 ， 用 列 族 数 乘 以 每 个 region 服 务 器 中 





region 的 数量 ， 例 如 ， 每 个 region 有 3 个 列 族 ， 每 个 region 服 务 
器 有 100 个 region， 不 算 打 开 的 JAR 文 件 、 配 置 文件 、CRC32 
文件 等 ，JVM 将 打开 3 x 3 x 100 =900 个 文件 。 运 行 lsof -p 
REGIONSERVER_PID 能 够 看 到 准确 的 数字 。 


HBase 在 它 的 日 志 第 一 行 打 印 了 ulimit 信 息 ， 因 此 要 确保 打印 的 信息 
是 正确 的 。 12.5.2 一 节 会 介绍 怎样 在 日 志 中 查找 此 类 关键 信息 ， 这 些 
信息 可 以 帮助 用 户 发 现 和 解决 HBase 的 安装 问题 。 


用 户 还 需要 编辑 /etc/sysctl.conf ， 并 调整 fs .file-max 的 (ho. AX 
的 详细 信息 请 参考 Server Fault 的 这 篇 文章 
http://serverfault.com/questions/165316/how-to-configure-linux-file- 
descriptor-limit-with-fs-file-max-and-ulimit / 。 





例子 : 在 Ubuntu 上 设置 文件 句柄 








如 有 果 在 Ubuntu 下 ， 你 需要 做 以 下 更 改 : 在 文 
{-/etc/security/limits.conf 中 添加 这 样 一 行 : 


nofile 32768 





用 户 应 该 使 用 hadoop 账号 运行 Hadoop 和 HBase， 如 果 
用 户 使 用 单独 的 账号 运行 还 需要 设置 两 个 参数 ， 其 中 一 个 
参数 需要 在 每 个 账号 中 都 设置 。 在 文件 /etc/pam.d/common- 


session 的 最 后 一 行 添 加 : 


session required pam_limits.so 





FUJ, /etc/security/limits.conf 中 的 变化 不 会 生效 。 


为 外 切记 个 要 瑟 记 重新 登录 以 便 更 改 及 时 生效 ! 


用 户 可 以 在 配置 文件 /etc/security/limits.conf 中 设置 nproc 值 以 调整 
文件 可 以 被 引用 的 进程 数 上 限 。 数 值 设 置 较 小 会 引 
起 OutOfMemoryError 异种 ， 这 会 导致 Java 进 程 直 接 退 出 。 文 件 句 柄 是 
用 户 需 要 在 运行 进程 时 着 重 确 认 当 前 账号 下 的 此 参 








9. DataNode 处 理 线程 数 


HDFS 的 DataNode 会 设置 服务 时 可 处 理 的 文件 数 上 限 ， 这 个 参数 叫 
做 xcievers 。 在 加 载 前 ， 用 户 必 须 确 保 拥 有 Hadoop 的 配置 文件 
conf/hdfs-site.xml ， 且 设置 xcievers 参数 至 少 为 以 下 数值 : 


< property> 
< name>dfs.datanode.max.xcievers< /name> 
< value>4096< /value> 


< /property> 
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“ 修改 了 配置 后 需要 重启 HDFS。 





不 配置 这 个 选项 有 可 能 导致 一 些 奇 怪 的 问题 。 用 户 最 终 会 在 数据 市 
扩 的 日 志 中 发 现 xcievers 使 用 超过 限额 的 寞 第 ， 但 是 这 个 异常 是 以 块 丢 
失 的 异常 抛 出 给 客户 端的 ， 相 关 的 寞 常 信息 如 下 : 











10/12/08 20:10:31 INFO hdfs.DFSClient: Could not obtain block 
b1k_XXXXXXXXXXXXXXXXXXXXXX_YYYYYYYY from any node: java.io. IOExcepti 


on: 
No live nodes contain current block. Will get new block locations fro 


m 
namenode and retry... 





10. 交换 区 


用 户 为 了 避免 运行 时 发 生 内 存 溢出 ， 比 较 好 的 方式 是 给 操作 系统 的 
进程 预 留 足 够 的 和 内存， 并 且 JVM 扒 大 小 设置 不 要 太 大 。 一 旦 使 用 内 存 接 
近 最 大 可 用 物理 内 存 ， 操 作 系 统 会 开始 使 用 交换 区 (swap) ， 通 利 是 
机 占 磁 盘 中 独立 的 分 区 ， 此 时 内 存 会 重新 分 配 。 


交换 区 一 一 在 工作 站 上 或 许 是 好 事 一 一 但 是 在 服务 器 上 已经 逐渐 地 
被 某 止 了 。 因 为 一 旦 服务 器 开始 使 用 交换 区 ， 整 体 的 性 能 惑 会 显著 降 
低 ， 用 户 甚至 可 能 无 法 登录 系统 ， 因 为 远程 访问 〈 如 SSHD) 在 这 个 过 
程 中 会 被 挂 起 。 


HBase 需 要 保证 CPU 周期 ， 并 且 需 要 遵守 一 定 的 租约 。 例 如 ， 
HBase 需 要 刷新 ZooKeeper 会 话 ， 一 旦 服务 器 发 生 交 换 ，HBase 服 务 器 就 
无 法 与 ZooKeeper 服 务 器 交换 信息 ，ZooKeeper 服 务 会 认为 这 个 会 话 已 经 
超时 并 失效 ， 即 租约 换 效 。 这 种 情况 会 导致 这 些 服 务 器 上 部 署 的 region 
被 重新 部 署 到 其 他 服务 器 中 ， 如 果 集 群 遇 到 额外 的 压力 也 会 引发 此 类 问 


je 














更 糟糕 的 是 ， 服 务 器 在 交换 过 程 中 被 唤醒 ,而 此 时 master 节 点 认为 
当前 节点 已 经 死 挥 了 ， 于 是 region 服 务 器 仿佛 什么 事情 也 没有 发 生 过 ， 
并 再 次 向 master 汇 报信 息 ， 这 时 region 服 务 器 会 收 到 master 返 回 的 
YouAreDeadException 异常 ， 并 认定 上 自己 需要 进入 死亡 状态 ， 并 终止 
自身 的 进程 。 此 外 还 有 不 少 隐 含 的 问题 ， 例 如 ， 挂 起 状态 的 更 新 ， 关 于 
这 一 点 后 面 有 详细 讨论 。 以 上 足以 说 明 这 并 不 是 件 好 事 。 





用 户 可 以 通过 编辑 配置 文件 /etc/sysctl.conf 加 入 下 面 命令 行 来 对 
Linuxz 和 类 Unix 系 统 服务 器 交换 区 的 相关 参数 进行 调整 ， 


vm.swappiness=5 





用 户 可 以 尝试 将 这 个 值 设 置 为 0 或 5， 以 减少 使 用 交换 空间 的 概率 。 

一 些 激进 的 系统 管理 员 已 经 完全 关闭 了 交换 区 〈 见 Linux 上 的 
swappoff) ， 主 要 原因 是 他 们 和 希望 系统 能 够 “撞墙 似 ” 的 处 理 ， 而 不 必 处 
理 交 换 引 发 的 问题 。 用 户 可 以 选择 目 己 习惯 的 方案 ， 但 要 时 刻 关 注 这 个 


问题 。 


最 终 ， 重 局 服务 器 就 可 以 使 配置 生效 : 


但 是 ， 这 个 配置 也 许 不 能 完全 满足 需求 。 这 显然 是 在 类 Unix 系 统 中 
才 有 的 问题 ， 用 户 在 使 用 时 最 好 要 调整 操作 系统 。 


11. Windows 














HBase 很 少 在 Windows 上 进行 测试 ， 因 此 不 建议 将 HBase 的 生产 环境 
建 在 Windows 上 。 如 果 用 户 坚 持 在 Windows 上 运行 HBase， 必 须 安 装 
Cygwin 环 境 ( http://cygwin.com/ ) ， 因 为 Cygwin 为 Shell 脚 本 提供 了 一 
个 类 Unix 环 境 。 在 HBase 的 主页 上 有 Windows 安 装 指 南 ( 
http://hbase.apache.org/cygwin.html ) ， 里 面 有 详细 的 解释 。 


2.3 HBase 使 用 的 文件 系统 


HBase 最 常 使 用 的 文件 系统 是 HDFS， 但 并 不 仅仅 是 HDFS， 因 为 
HBase 使 用 的 文件 系统 是 一 个 可 插 拔 的 架构 ， 用 户 可 以 使 用 其 他 任何 支 
持 Hadoop 接 口 的 文件 系统 代 蔡 HDFS。 事 实 上 ， 用 户 可 以 实现 自己 的 文 
件 系 统一 甚至 基于 另 一 个 数据 库 。 一 切 篆 有 可 能 ! 


E9 
一 人 我 们 现在 讨论 的 不 是 操作 系统 使 用 的 底层 文件 系统 
( 见 2.2.3 节 ) ， 而 是 指 HBase 直 接 依赖 的 存储 文件 系统 。 这 些 
是 更 高 层次 功能 和 API 的 抽象 定义 ， 然 后 由 Hadoop 调 用 并 存 
储 数 据 ， 最 终 Hadoop 会 将 数据 存储 到 操作 系统 使 用 的 磁盘 文 
件 系统 。 














HDFS 是 生产 中 使 用 最 广泛 的 且 经 过 检验 的 文件 系统 。 几 乎 所 有 的 
生产 集群 都 使 用 HDFS 作 为 底层 存储 层 ， 它 被 证 明 是 稳定 可 靠 的 系统 ， 
然而 不 使 用 HDFS 可 能 会 产生 不 可 控 的 风险 和 一 些 后 续 的 问题 。 


HDFS 如 此 受 欢迎 的 主要 原因 是 ， 它 的 机 制 包涵 了 元 余 、 容 错 性 和 

可 扩展 性 。 无 论 选择 哪个 文件 系统 都 应 该 提供 类 似 的 保障 ， 因 为 HBase 

需要 假定 文件 系统 中 的 数据 存储 是 可 徘 的 ， 并 且 HBase 本 里 没有 办 法 复 

a a 
功能 。 











通过 设置 URI 模式 ， 就 可 以 选择 不 同 的 文件 系统 ，URI 标 识 符 中 
的 scheme 〈 即 第 一 个 冒号 之 前 的 部 分 ) 标识 了 使 用 的 磁盘 。 图 2-1 显 示 
了 在 Hadoop 文 件 系统 与 实际 磁盘 的 底层 操作 系统 的 文件 系统 有 哪些 不 
同 。 





[Liens | 
Je 


| HOFS | S3/S3N AWS 


xceiver 


| Disk Driver | Disk Driver | Disk Driver | 





图 2-1 文件 系统 协议 


用 户 可 以 使 用 Hadoop 提 供 的 文件 系统 : 上 图 罗列 了 支持 Hadoop 接 
口 的 所 有 文件 系统 思 ， 用 户 可 以 对 此 先 做 一 些 尝试 。 对 有 经 验 的 开发 
者 来 说 ， 开 发 者 也 可 以 目 行 实现 上 自己 的 文件 系统 。 


2.3.1 本 地 模式 

本 地 文件 系统 实际 上 完全 绕 过 了 Hadoop， 即 不 使 用 HDFS 或 任何 其 
他 集群 。HBase 使 用 Filesystem 类 连接 到 文件 系统 实现 ，Hadoop 客 户 
端 加 载 并 使 用 Hadoop 提 供 的 ChecksumFilesystem 类 直接 操作 本 地 磁 
盘 路 径 来 存储 所 有 数据 。 

这 种 方法 的 特点 是 ，HBase 直 接 使 用 本 地 文件 系统 ， 而 不 需要 关注 


使 用 的 是 一 个 远程 的 分 布 式 文件 系统 还 是 一 个 托管 集群 。HBase 单 机 模 
oo 上 述 特性 。 用 户 设置 以 下 参数 就 可 以 直接 使 用 本 地 文件 系 
Zt I: 


file:///< path> 


形式 上 类 似 于 Web 浏 览 器 的 URI， 使 用 file: 直接 定位 本 地 文件 。 











2.3.2 HDFS 


Hadoop 分 布 式 文件 系统 (Hadoop Distributed File System, HDFS ) 
是 默认 的 文件 系统 ， 它 部 四 在 一 个 完全 分 布 式 的 集群 中 。HBase 选 择 
HDFS 作 为 文件 系统 ， 是 因为 HDFS 具 有 所 有 必需 的 功能 。 如 之 前 讨论 的 
与 MapReduce 的 粳 合 ， 能 够 充分 利用 其 并 行 流 式 的 处 理 能 力 。 并 且 拥 有 
较 好 的 扩展 性 、 系 统 可 靠 性 和 自动 元 余 功能 ， 是 理想 可 靠 的 文件 存储 系 
统 。HBase 增 加 了 随机 存 取 层 ， 是 HDFS 缺 失 的 部 分 ， 是 对 Hadoop 的 理 
想 补 充 。 另 外 利用 MapReduce 的 并 行 能 力 可 以 执行 批量 导入 数据 的 功 
Ae, spc A PREA H Wa a Tie BE o 


使 用 以 下 URI 可 以 访问 HDFS: 


hdfs://< namenode>:< port>/< path> 


2.3.3 S3 








Amazon $3 (Simple Storage Service ) 加 是 一 个 存储 系统 ， 并 主要 
与 动态 服务 器 结合 使 用 ，S3 一 般 运 行 在 Amazon 的 男 一 个 互补 服务 
EC2 (Elastic Compute Cloud) Y E. 


S3 可 以 不 依赖 EC2 直 接 使 用 ，S3 输 入 和 导出 数据 消耗 的 带宽 成 本 是 
非常 高 的 。EC2 和 S3 之 间 的 数据 迁移 是 免费 的 ， 因 此 这 是 一 个 可 行 方 
案 。 关 于 如 何 启 动 基于 EC2 的 集群 在 2.7.2 节 有 介绍 。 


S3 文 件 系统 实现 了 Hadoop 文 持 的 两 种 不 同 模式 : 原生 (raw 或 
native) 模式 和 块 (block) 模式 。 原 生 模 式 使 用 s3n :URI scheme， 并 直 
接 将 数据 写 入 到 S3， 与 本 地 文件 系统 类 似 。 与 本 地 磁 檀 类 似 ， 用 户 可 以 
在 桶 中 看 到 所 有 的 文件 。 

S3: 是 基于 块 的 模式 ， 可 用 来 元 服 S3 最 大 文件 为 5 GB 的 限制 。 情 况 
己 经 发 生变 化 ， 这 让 选择 哪 种 模式 变 得 更 困难 或 者 更 容易 : WRH 
户 文 件 不 超过 5 GB 就 可 以 选择 s3n: 。 


S3 的 块 模式 模拟 了 HDFS 文 件 系统 ， 它 使 浏览 桶 的 内 容 变 得 非常 











难 ， 因 为 只 有 内 部 的 文件 块 是 可 见 的 ， 而 HBase 存 储 文件 的 文件 块 散落 
在 集群 的 各 个 地 方 。 可 以 使 用 如 下 URI 配 置 选择 文件 系统 : 


s3://< bucket-name> 
s3n://< bucket-name> 





2.3.4 其 他 文件 系统 


其 他 文件 系统 ， 如 CloudStore (过 去 称 为 Kosmos filesystem， 人 简称 
KFS， 同 名 的 URI scheme 将 在 下 一 段 未 进行 描述 ) 。KFS 是 一 个 用 
C++ 语言 编写 的 、 开 源 的 、 分 布 式 的 、 高 性 能 的 文件 系统 ， 功 能 上 与 
HDFS 类 似 。 在 CloudStore 网 站 可 以 查找 到 更 多 有 关 它 的 信息 


(http://kosmosfs.sourceforge.net/ ) 。 


KFS 可 以 在 Solaris 和 Linux 上 使 用 ， 最 初 KFS 是 由 Kosmix 开 发 ， 并 在 
2007 年 发 布 为 开源 应 用 的 。 选 择 CloudSstore 作 为 HBase 的 文件 系统 需要 
使 用 以 下 URI 格 式 : 


kfs:///< path> 


2.4 ”安装 选项 


用 户 一 旦 决定 了 操作 系统 相关 的 基本 参数 ， 就 必须 马上 安装 HBase 
到 服务 器 中 。 用 户 有 多 种 选择 ， 我 们 接 下 来 将 详细 讨论 。 在 附录 D 中 可 
查看 其 他 选项 。 


2.4.1 Apache 一 进 制 发 布 包 


大 多 数 Apache 项 目 安装 过 程 中 需要 下 载 一 个 发 布 版 本 ， 通 常 是 一 个 
包含 所 有 必需 文件 的 归档 文件 。 有 些 项 目 将 归档 文件 分 为 二 进 制 文件 
和 源 文 件 两 种 不 同 的 类 型 一 一 前 者 拥有 所 有 运行 项 目 所 需 的 文件 ， 后 
者 则 包含 了 编译 项 目 所 需 的 所 有 文件 。HBase 使 用 一 个 包含 了 二 进 制 文 
件 和 源 文 件 的 独立 软件 包 。 更 多 关于 HBase 版 本 的 信息 可 以 查看 Release 
Notes © 页 面 。 另 一 个 有 趣 的 页 面 是 Change Log® ， 其 中 列 出 了 增加 、 
修改 的 功能 和 修复 的 缺陷 。 


用 户 可 以 从 Apache HBase 的 发 布 网 站 〈 
http://www.apache.org/dyn/closer.cgi/hbase/ ) 下 载 HBase 的 最 新 版 本 ， 并 
将 内 容 解压 到 一 个 合适 的 目录 中 ， 如 msiocal 或 pt ， 像 这 样 : 

















$ cd /usr/local 


$ tar -zxvf hbase-x.y.z 





解压 所 有 文件 后 ， 用 户 可 以 了 解 到 项 目 目录 中 都 包含 哪些 文件 ， 解 
压 归 档 文件 后 得 到 的 目录 结构 如 下 : 


-rw-r--r-- 1 larsgeorge staff 192809 Feb 15 01:54 CHANGES.txt 
-rw-r--r-- 1 larsgeorge staff 11358 Feb 9 01:23 LICENSE.txt 
-rw-r--r-- 1 larsgeorge staff 293 Feb 9 01:23 NOTICE.txt 
-rw-r--r-- 1 larsgeorge staff 1358 Feb 9 1:23 README.txt 
drwxr-xr-x 23 larsgeorge staff 782 Feb 9 01:23 bin 

drwxr-xr-x 7 larsgeorge staff 238 Feb 9 01:23 conf 

drwxr-xr-x 64 larsgeorge staff 2176 Feb 15 01:56 docs 

-rwxr-xr-x 1 larsgeorge staff 905762 Feb 15 01:56 hbase-0.90.1-t 
ests.jar 

-rwxr-xr-x 1 larsgeorge staff 2242043 Feb 15 61:56 hbase-0.90.1.jar 
drwxr-xr-x 5 larsgeorge staff 170 Feb 15 01:55 hbase-webapps 
drwxr-xr-x 32 larsgeorge staff 1088 Mar 3 12:07 lib 

-rw-r--r-- 1 larsgeorge staff 29669 Feb 15 01:28 pom.xml 
drwxr-xr-x 9 larsgeorge staff 306 Feb 9 01:23 src 





根 目 录 包 含 一 些 文本 文件 ， 说 明文 档 以 及 许可 条 球 (LICENSE.txt 
和 NOTICE.txt ) 和 其 他 一 些 生 成 信息 (README.txt X 
件 ) > CHANGES.txt 是 变更 日 志 的 静态 快照 页 面 ， 它 包含 了 当前 下 载 版 
本 中 所 有 的 变更 记录 。 


根 目录 中 还 能 发 现 Java 的 归档 文件 ， 叉 名 JAR 文 件 ， 包 含 已 编译 的 
Java 代 码 以 及 所 有 其 他 必要 的 资源 。JAR 文 件 有 两 个 ， 一 个 只 包括 名 称 
和 版 本 写 ， 男 一 个 还 包含 tests 后 级 ， 此 文件 包含 HBase 的 测试 用 例 ， 开 
发 人 员 使 用 其 中 的 单元 测试 验证 一 个 版 本 是 完全 可 用 并 且 没 有 退化 。 


最 后 一 个 文件 是 pom.xml ， 这 是 Maven 编 译 工 程 时 依赖 的 文件 ， 详 
情 见 2.4.2 节 。 


根 目录 下 的 其 他 目录 如 下 所 示 。 








bin 


bin ， 即 二 进 制 文件 ， 此 目录 包含 了 HBase 提 供 的 所 有 脚本 ， 可 以 完 
成 启动 和 停止 ， 运 行 独立 的 守护 进程 了 或 启动 额外 的 master 节 点 等 功 
能 ， 请 在 2.8.1 节 中 查阅 如 何 使 用 它们 。 


conf 


配置 目录 中 包含 了 定义 HBase 配 置 的 文件 ， 在 2.6 市 中 非常 详细 地 解 
释 了 其 中 包含 的 文件 。 





docs 


这 个 日 录 包 含 了 HBase 工 程 网 页 的 副本 ， 以 及 工具 、API 和 项 目 自 
身 的 文档 信息 。 打 开 浏 览 器 把 docs/index.html 文件 拖 入 浏览 器 ， 双 击 该 
文件 使 用 文件 ~ 打开 (或 类 似 ) 菜单 就 可 以 使 用 文档 。 


hbase-webapps 


HBase 提 供 了 Java 实 现 的 Web 接 口 ， 其 中 所 用 到 的 文件 都 在 这 个 目 
录 下 。 用 户 在 布置 HBase 到 生产 环境 中 或 使 用 HBase 时 ， 很 少 有 机 会 接 
触 到 这 个 目录 中 的 文件 。 


lib 


Java 应 用 程序 依赖 很 多 类 库 ， 这 些 类 库 包 含 了 实际 的 执行 程序 ， 并 
且 这 些 文件 都 放置 在 lib 目录 里 。 


logs 
HBase 进 程 通 常 以 守护 进程 的 形式 运行 ， 即 在 操作 系统 的 后 台 运 


行 ， 在 生命 周期 内 它 会 将 一 些 状 态 、 程 度 、 异 常 等 信息 打印 到 日 志文 件 
中 ，12.5.2 节 介绍 了 相关 内 容 。 


#7 


jà a + 

| wW i 

一 一 首次 启动 时 ，logs 目录 可 能 不 存在 ， 但 HBase 会 通 
过 日 志 框 架 自动 创建 日 志文 件 夹 。 











STC 


如 果 用 户 计划 编译 二 进 制 文件 《如 何 去 做 请 查阅 2.4.2 节 ) ， 或 加 入 
HBaselIF REID. 用 户 将 需要 源 文件 ， 源 文件 包含 了 所 有 的 发 布 信 


如 果 你 已 经 解压 了 一 个 发 布 版 ， 现 在 就 可 以 跳 到 2.5 节 去 研讨 如 何 
启动 HBase 了 。 
2.4.2 ”编译 源码 

HBase 依 赖 Maven 编 译 工程 ， 因 此 用 户 需要 安装 Maven 以 及 完整 的 


Java 开 发 工具 包 〈Java Development Kit, JDK) 不 仅仅 是 在 Java 运 
行 时 才 会 被 用 到 ， 关 于 这 里 的 细节 在 2.1 节 中 有 介绍 。 


可 
| we i; 
一 本 节 仅 仅 介 绍 了 如 何 通过 源码 编译 HBase 工 程 ， 这 
对 需要 打 补丁 或 增加 功能 来 说 才 是 需要 掌握 的 技能 。 

















一 旦 确认 以 上 两 者 都 已 经 安装 ， 就 可 以 通过 以 下 命令 来 编译 二 进 制 
包 : 


$ mvn assembly: assembly 


需要 注意 的 是 ，HBase 的 运行 测试 会 超过 一 个 小 时 。 如 果 用 户 相 信 
代码 是 没 问 题 的， 可 以 市 省 这 个 时 间 ， 直 接 通 过 以 下 命令 跳 过 测试 阶 
段 : 


$ mvn -DskipTests assembly:assembly 





这 个 编译 过 程 大 概 需 要 几 分 钟 ， 如 果 没 有 跳 过 测试 阶段 可 能 需要 几 
十 分 钟 。 最 后 ，HBase 的 home 目 录 里 会 创建 target 目录 。 一 旦 编译 完成 
并 打印 出 提示 信息 Build Successful ， 在 target 目录 里 ， 你 将 能 找到 
编译 和 打包 好 的 tarball 格式 归档 文件 。 此 时 ， 你 可 以 跳 转 回 2.4.1 节 ， 按 
照 步骤 将 其 安装 在 自己 的 私有 服务 器 中 。 


2.5 ”运行 模式 

HBase 有 两 个 运行 模式 : 单机 模式 和 分 布 式 模式 。2.1 节 介绍 过 如 何 
启动 单机 版 HBase， 如 果 用 户 想 启动 分 布 式 模式 只 需要 编辑 conf 上 日 录 中 
的 配置 文件 即 可 。 


无 论 启动 什么 模式 ， 都 必须 要 编辑 conf/hbase-env.sh 文件 以 指定 运 
行 HBase 的 java 安装 目录 ， 只 需要 设置 JAVA_HOME 参数 即 可 ， 让 该 参数 
指向 Java 安 装 的 根 目录 。 在 这 个 文件 中 ， 用 户 还 能 够 设置 HBase 的 环境 
变量 ， 如 堆 大 小 和 其 他 一 些 JVM 人 参数 ， 以 及 日 志文 件 的 输出 目录 等 。 


2.5.1 单机 模式 


单机 模式 是 默认 模式 ， 具 体 描述 见 2.1 节 。 在 单机 模式 中 ，HBase 并 
不 使 用 HDFS 一 一 仅 使 用 本 地 文件 系统 一 一 ZooKeeper 程 序 与 HBase 程 序 
运行 在 同一 个 JVM 进 程 中 ，ZooKeeper 绑 定 到 客户 端的 常用 端口 上 ， 以 
便 客 户 端 可 以 与 HBase 进 行 通 信 。 


2.5.2 ”分 布 式 模式 


分 布 式 模式 可 以 进一步 细 分 成 伪 分 布 式 模式 (pseudo distributed) 
所 有 和 守护 进程 都 运行 在 单个 节点 上 ， 以 及 完全 分 布 式 模式 (fully- 
distributed) 一 一 进程 运行 在 物理 服务 器 集群 中 。 


分 布 式 模式 依赖 Hadoop 分 布 式 文件 系统 实例 (Hadoop Distributed 
File System, HDFS) ， 详 情 见 链接 
http://hadoop.apache.org/common/docs/current/api/overview- 
summary.html#overview_description ， 从 中 可 以 查阅 如 何 建 立 一 个 HDFS 
。 进 行 布置 前 ， 一 定 要 确保 有 一 个 合适 的 、 正 在 工作 的 HDFS 集 





























下 面 我 们 介绍 如 何 局 动 不 同 的 分 布 式 模 式 ， 关 于 完全 分 布 式 模式 与 
伪 分 布 式 模式 的 验证 和 安装 信息 在 2.8.1 节 中 有 详细 描述 。 经 过 验证 的 部 
萤 脚 本 适合 两 种 部 署 类 型 〈 伪 分 布 式 模 式 与 完全 分 布 式 模式 )。 


1. 伪 分 布 式 模式 











伪 分 布 式 模式 是 在 一 台 主 机 上 运行 所 有 进程 的 模式 。 此 配置 仅仅 是 
协助 HBase 用 于 测试 和 原型 ， 不 要 在 生产 环境 中 使 用 此 配置 ， 也 不 要 用 
此 配置 做 HBase 的 性 能 比较 。 


如 果 你 确认 HDFS 已 经 启动 ， 就 请 编辑 conf/hbase-site.xml 文件 ， 在 
这 个 文件 中 可 以 添加 自 定 义 的 本 地 参数 ， 并 和 窗 新 HBase 的 默认 配置 (在 
附录 人 A 中 可 查阅 完整 属性 列表 ， 以 及 2.6.1 节 中 的 “HDFS 相 关 配 置 *») 。 设 
置 hbase.rootdir 属性 可 以 指定 HDFS 实 例 。 例 如 ， 添 加 以 下 配置 属性 
到 hbase-site.xml 文件 是 指 : HBase 使 用 HDFS 的 /hbase 目录 作为 根 目 录 ， 
HDFS 的 服务 端口 是 本 机 端口 9000， 并 且 数 据 只 保留 一 个 副本 (建议 伪 
分 布 式 模式 这 样 做 〉: 

















< configuration> 


< property> 
< name>hbase.rootdir< /name> 
< value>hdfs://localhost:900@/hbase< /value> 
< /property> 
< property> 
< name>dfs.replication< /name> 
< value>1< /value> 
< /property> 


< /configuration> 
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必 ， 在 这 个 例子 中 ， 服 务 绑 定 在 本 机 中 ， 这 意味 着 远程 
客户 端 无 法 连接 。 如 果 用 户 想 从 远程 位 置 连 接 ， 其 需要 做 相 
应 的 修改 。 


如 果 用 户 想 答 试 伪 分 布 式 模式 ， 那 么 现在 区 可 以 跳 转 到 2.8.1 节 碍 看 








如 何 司 动 和 验证 。 第 12 章 中 有 关于 如 何在 伪 分 布 式 模式 中 局 动 master 和 
region 服 务 嚣 的 相关 信息 。 


2. 完全 分 布 式 模式 


如 果 用 户 需 要 在 多 台 主 机 中 运行 完全 分 布 式 操作 ， 需 要 进行 以 下 配 
置 。 在 hbase-site.xml 中 添加 hbase.cluster.distributed 属性 并 设置 
为 true ， 添 加 hbase.rootdir 属性 并 设置 HDFS NameNode 的 访问 地 
址 ， 这 将 决定 HBase 的 数据 会 写 到 哪里 ， 例 如 ，NameNode 运 行 在 主机 
名 为 namenode .foo.com 的 服务 器 上 ， 并 以 9000 为 服务 端口 ，HBase 在 
HDFS 上 使 用 的 根 目录 为 /hbase ， 可 以 做 如 下 配置 : 














< configuration> 


< property> 
< name>hbase.rootdir< /name> 
< value>hdfs://namenode.foo.com:9000/hbase< /value> 
< /property> 
< property> 
< name>hbase.cluster.distributed< /name> 
< value>true< /value> 
< /property> 


< /configuration> 








配置 region 服 务 占 。 此 外 ， 完 全 分 布 式 模式 需要 修 
改 conf/regionservers 文件 ， 该 文件 列 出 了 所 有 运行 HRegionServer 守 护 进 
程 的 主机 ， 每 个 主机 独立 占用 一 行 〈 类 似 于 Hadoop 中 的 slaves XF) 。 
HBase 集 群 启动 和 关闭 时 会 按照 该 文件 中 罗列 的 主机 逐一 执行 。 


ZooKeeper 安 装 。 分 布 式 的 HBase 依 赖 于 ZooKeeper 和 集群 。 所 有 的 
节点 和 客户 端 都 必须 能 够 正常 访问 ZooKeeper。HBase 默 认 管 理 一 个 单 点 
的 ZooKeeper 集 群 (ZooKeeper 能 够 以 一 个 单独 的 节点 启动 )， 用 户 通 过 
启动 和 关闭 脚本 就 可 以 把 ZooKeeper 当 做 HBase 的 一 部 分 来 启动 和 关闭 进 
程 。 用 户 也 可 以 不 依赖 于 HBase 管 理 ZooKeeper 和 集群， 只 需 为 HBase 指 出 
需要 使 用 的 集群 即 可 。 在 conf/hbase-env.sh 中 设置 HBASE_MANAGES_ZK 
变量 为 true ， 就 可 以 将 ZooKeeper 作 为 HBase 的 一 部 分 管理 启动 (这 个 
参数 默认 为 true ) 。 





当 用 户 需 要 通过 HBase 管 理 ZooKeeper 时 ，ZooKeeper 可 以 直接 使 用 
本 地 zoo.cfg 文件 作为 依赖 的 配置 文件 ， 或 者 直接 使 用 conf/hbase-site.xml 
中 的 ZooKeeper 配 置 。ZooKeeper 的 相关 配置 可 以 在 hbase-site.xml 中 通过 
XML 格式 设置 ， 属 性 以 hbase.zookeeper.property 为 前 级 ， 例 
un, clientPort 可 以 设置 
为 hbase.zookeeper.property.clientPort 。 在 HBase 中 这 些 参 数 都 
有 默认 值 ， 包 括 ZooKeeper 的 配置 ， 详 情 见 附件 A， 碍 询 前 绥 
Ahbase.zookeeper.property 的 属性 。 


Zoo.cfg 与 hbase-site.xml 的 对 比 


将 hbase-site.xml 与 z00.cfg 结合 起 来 配置 ZooKeeper 参 数 
非常 容易 引起 混乱 。 对 于 初学 者 来 说 ， 如 果 在 classpath 中 配 
置 zo0.cfg (这 意味 着 Java 进 程 可 以 找到 这 个 配置 ) ， 这 样 
就 可 以 履 盖 jhpase-site.xml 中 除了 以 
hbase.zookeeper.property 为 前 级 的 配置 。 


有 一 些 ZooKeeper 的 客户 端 配置 无 法 在 zoo.cfg 中 读 取 ， 
因此 必须 要 在 hbase-site.xml 中 设置 ， 例 如 ， 客 户 端 会 话 超 
时 配置 一 一 zookeeper.session.timeout 。 其 他 更 详细 
的 描述 如 下 表 所 示 。 





site. xml 


hbase. zookeeper. quorum coe cfg 文件 中 格式 为 server. ie He PAT Bc 仅 使 用 


BSA mhbase-site.xml 中 的 配置 


ee ee 中 的 配置 会 覆盖 hbpase-site.xml 中 的 仅 使 用 


仅 在 hbase- 
zookeeper . * (ME hbase-site.xml 中 才 有 site.xml 中 才 
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为 了 避免 部 署 中 出 现 混乱 ,不 推荐 使 用 zoo.cfg ， 文 件 
推荐 只 使 用 hbase-site.xml 文件 。 尤 其 在 完全 分 布 式 模式 
中 ， 用 户 完 全 没有 必要 将 ZooKeeper 的 特殊 配置 文件 复制 到 
其 他 HBase 服 务 器 中 。 


如 果 用 户 使 用 hbase-site.xml 配置 ZooKeeper， 首 先 要 设置 的 
是 hbase.zookeeper.quorum 属性 ， 通 过 这 个 属性 可 以 设置 可 用 服务 
器 列表 。 这 个 属性 默认 是 本 地 的 单一 成 员 ， 这 个 默认 属性 不 适合 完全 分 
布 式 模式 的 HBase (如 果 不 设 置 该 属性 客户 端 就 无 法 进行 远程 访问 〉。 


应 该 启动 儿 台 ZooKeeper? 


用 户 可 以 运行 一 台 只 包括 一 个 节点 的 ZooKeeper， 但 是 
在 生产 环境 中 ， 推 荐 使 用 3 台 、5 台 或 7 台 ; 数量 越 多 集群 容 
灾 能 力 越 强 。 但 是 最 好 运行 奇数 个 节点 ， 因 为 运行 偶数 个 
节点 不 容易 让 服务 器 之 间 达 成 共识 一 一 ZooKeeper 集 和 群 需要 
一 个 绝 大 多 数 的 投票 ， 无 论 3 台 或 4 台 服 务 器 都 需要 3 个 以 上 
节点 的 投票 ， 使 用 奇数 的 目的 是 只 有 在 两 台 服 务 器 都 失败 
的 情况 下 才 不 可 用 而 使 用 侦 数 在 一 台 服 务 器 失败 的 情况 下 
就 会 不 可 用 。 




















给 每 个 ZooKeeper 服 务 器 大 约 1 GB 的 内 存 和 专用 磁盘 
《如 果 可 能 的 话 ， 专 用 磁盘 有 利于 确保 ZooKeeper 的 性 
能 ) 。 在 负载 非常 高 的 集群 上 ，ZooKeeper 服 务 器 应 该 独立 


于 RegionServer、DataNode 和 TaskTracker。 


例如 ， 如 果 需 要 通过 HBase 在 节点 rs{f1，2，3，4，5}.foo.com 上 管 
理 ZooKeeper， 并 绑 定 客户 端 服 务 端口 2222 (默认 是 2181) ， 用 户 就 需 
要 在 conf/hbase-env.sh 中 将 HBASE MANAGE _ZK 设置 为 true ， 并 且 需 要 
编辑 conf/hbase-site.xml 文件 和 设 
置 hbase.zookeeper.property.clientPort 和 
hbase.zookeeper.quorum 。 此 外 用 户 还 应 该 设 
置 hbase.zookeeper.property.dataDir 以 存储 ZooKeeper 的 元 数 
据 ， 如 果 不 设置 这 个 属性 ， 默 认 将 是 /tmp ， 系 统 重启 后 会 自动 清理 这 个 
目录 。 下 面 的 例子 描述 了 ZooKeeper 设 置 该 属性 为 Var/zookeeper 。 





< configuration> 


< property> 
< name>hbase.zookeeper.property.clientPort< /name> 
< value>2222< /value> 
< /property> 
< property> 
< name>hbase.zookeeper.quorum< /name> 
< value>rs1.foo.com,rs2.foo.com,rs3.foo.com,rs4.foo.com,rs5.foo. com< 
/value> 
< /property> 
< property> 
< name>hbase.zookeeper.property.dataDir< /name> 
< value>/var/zookeeper< /value> 
< /property> 


< /configuration> 





使 用 已 有 ZooKeeper 集 群 。 HBase 采 用 已 有 的 ZooKeeper 集 群 ， 
此 不 能 依赖 HBase 来 管理 ZooKeeper， 用 户 需 要 在 conf/hbase-env.sh 中 
将 HBASE_MANAGES_ZK 属性 设置 为 false 。 


# Tell HBase whether it should manage it's own instance of Zookeeper or no 


t. 
export HBASE MANAGES ZK=false 





下 一 步 需要 在 hbase-site.xml 中 设置 ZooKeeper 的 连接 地 址 与 客户 端 





端口 号 ， 或 将 在 zoo.cfg 中 配置 相关 信息 ， 并 在 HBase 的 CLASSPATH 中 
添加 zoo.cfg 路 径 。HBase 启 动 时 会 读 取 zoo.cfg PRIMES., JF% hbase- 
site.xml 中 的 配置 。 


使 用 HBase 管 理 ZooKeeper，ZooKeeper 会 作为 HBase 的 一 部 分 随 着 
局 动 /关闭 脚 本 进行 局 BUX 闭 。 AA m MOLI 运行 ZooKeeper， 不 依赖 
HBase 的 启动 与 关闭， 需要 执行 以 下 命令 : 





${HBASE_HOME}/bin/hbase-daemons.sh {start,stop} zookeeper 





采取 这 样 的 方式 可 以 让 ZooKeeper 与 HBase 脱 离 关 系 ， 只 有 在 
将 HBASE MANAGES _ZK 设置 为 false 后 ，ZooKeeper 才 不 会 因 HBase 的 
关闭 而 关闭 。 


关于 独立 运行 的 ZooKeeper 集 群 的 相关 信息 ， 请 参考 ZooKeeper 入 门 
指导 的 相关 内 容 ( 
http:/hadoop.apache.org/zookeeper/docs/current/zookeeperStarted.html 
) ， 此 外 还 可 以 参考 ZooKeeper 的 维基 百科 C 
http://wiki.apache.org/hadoop/ZooKeeper/FAQ#A7 ) 或 ZooKeeper 的 相关 
文档 ( 
http://zookeeper.apache.org/doc/r3.3.3/zookeeperAdmin.html#sc_zkMulitServ 
) 。 





2.6 配置 


通过 学 习 如 何 选择 文件 系统 、 运 行 模式 、 调 整 操作 系统 ， 我 们 已 经 
完全 掌握 了 这 种 基本 操作 ， 现 在 让 我 们 看 看 如 何 配 置 HBase。HBase 的 
配置 类 似 于 Hadoop 的 配置 参数 ， 配 置 文件 放 在 conf 目 录 下 。 这 些 文件 都 
是 简单 的 文本 文件 ， 有 些 是 包括 一 系列 属性 的 XML 文件 ， 另 外 一 些 是 
纯 文本 文件 ， 且 其 中 每 行 都 是 一 个 配置 项 。 
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E 关于 更 多 如 何 修改 配置 文件 的 信息 参见 2.6 节 。 











一 个 名 为 conf/hbase-env.sh 的 文件 中 包括 HBase 局 动 时 要 使 用 到 的 环 
境 变量 ， 这 些 配置 经 营 被 脚本 用 于 启动 和 关闭 集群 〈 详 情 见 5.2.4 节 ) 。 
用 户 可 能 还 需要 在 XML 文件 @ confy/hbase-site.xml 中 添加 一 些 配 置 项 ， 
这 个 文件 中 的 配置 会 履 靖 HBase 的 默认 配置 ， 例 如 ， 用 户 可 以 在 其 中 设 
置 可 用 文件 系统 和 ZooKeeper 可 用 地 址 。 


用 户 以 分 布 式 模式 运行 HBase 时 ， 首 先 需 要 编辑 HBase 的 配置 文 


件 ， oe 目录 到 集群 的 其 他 市 点 中 ， 但 HBase 不 会 目 动 完成 这 
Sa ee 


| 上 

一 一 同步 集群 的 配置 有 很 多 种 方式 ， 最 简单 的 方法 是 使 
用 rsync 工具 。 同 时 还 有 更 多 非常 精巧 的 同步 配置 方式 ， 用 户 
可 以 参考 2.7 节 。 











2.6.1 hbase-site.xml 与 hbase-default.xml 


在 Hadoop 中 ， 如 果 用 户 需 要 增加 HDFS 的 特定 配置 就 要 添加 到 hdfs- 
site.xml 文件 中 。 与 此 类 似 ， 在 HBase 中 ， 用 户 需 要 增加 配置 信息 就 需要 
将 配置 添加 到 conf/hbase-site.xml 文件 中 。 配 置 参 数 的 全 部 列表 参考 附件 
A, XARA HBase H XXsrc/main/resources 中 的 源 文 件 hbase- 
default.xml ，doc 目录 中 也 有 配置 参数 信息 的 HTML 文 档 。 


we i 

一 并 非 所 有 的 配置 信息 都 罗列 在 了 hbase-default.xml 
中 。 配 置 中 有 些 参数 并 不 常用 并 且 只 在 源码 中 存在 ， 因 此 ， 
唯一 的 办 法 是 通过 阅读 源码 来 查找 这 些 配置 参数 的 作用 。 


























进程 启动 后 ， 服 务 器 会 先 读 取 hbase-default.xml 文件 ， 然 后 读 取 
hbase-site.xml 文件 ，hpbase-site.xml W A RE 78 i hbase-default.xml 中 的 
内 容 。 


修改 site 文 件 后 必须 要 重 局 进程 才能 得 到 最 新 的 配置 。 


HDFS 相 关 配 置 
如 果 用 户 需 要 改动 Hadoop 集 群 中 HDFS 的 相关 配置 ， 
也 就 是 说 用 户 修 改 了 HDFS 客 户 端 相关 配置 而 不 是 服务 器 站 
相关 配置 ，HBase 中 需要 经 过 以 下 操作 才能 使 配置 生效 。 


e 在 hbase-env.sh 中 ， 将 HADOOP CONF _DIR 配置 
到 HBASE CLASSPATH 中 。 


复制 一 份 hdfs-site.xml (或 hadoop-site.xml ) 文件 

到 ${HBASE_HOMEYconf 中 ， 或 
4£${HBASE_HOME }/conf 中 设置 指向 该 文件 的 符 写 连 
接 。 


直接 把 这 些 配置 添加 到 jase-site.xml 。 


例如 ，HDFS 客 户 端 需要 使 用 dfs.replication 这 个 参数 ， 
希望 能 够 设置 复制 因子 为 5，HBase 默 认 使 用 的 是 3， 只 有 按 
照 以 上 的 步骤 才 能 让 HDFS 的 配置 在 HBase 中 可 用 。 


Hadoop 配 置 文件 在 HBase 中 的 使 用 优先 级 最 低 ， 换 名 
话说 ， 在 HBase 中 的 配置 与 Hadoop 配 置 属性 有 重复 的 情况 
下 ， 无 论 是 default 还 是 site 文 件 ，HBase 配 置 的 优先 级 都 会 
高 于 Hadoop 配 置 的 优先 级 。 这 意味 着 用 户 可 以 使 用 HBase 
配置 文件 的 参数 履 盖 Hadoop 的 参数 。 





2.6.2 hbase-env.sh 





HBase 的 环境 变量 等 信息 需要 在 这 个 文件 中 设置 ， 例 如 ，HBase 守 
护 进 程 的 JVM 启 动 参数 : Java 推 大 小 和 垃圾 回收 策略 等 。 在 这 个 文件 中 
还 可 以 设置 HBase 配 置 文件 的 目录 、 日 志 目 录 、SSH 选 项 、 进 程 pid 文件 
的 目录 等 。 用 户 最 好 打开 conf/hbase-env.sh 文件 ， 并 仔细 阅读 其 中 内 
容 ， 每 个 配置 在 文件 中 均 有 注释 。 在 HBase 守 护 进 程 启动 前 可 以 在 这 里 
设置 自己 需要 的 环境 变量 以 便 HBase 读 取 。 


改变 配置 后 需要 重启 HBase 才 能 生效 。 © 




















2.6.3 regionserver 


这 个 文件 罗列 了 所 有 region 服 务 器 的 主机 名 ， 它 是 纯 文本 文件 ， 文 





件 中 的 每 一 行 都 是 主机 名 。HBase 的 运 维 脚本 会 依次 迭代 访问 每 一 行 来 
启动 所 有 region 服 务 器 进程 。 


一 如 果 用 户 使 用 了 较 早 的 0.20.x 系 列 版 本 ， 里 面 

有 masters 文件 ， 但 是 之 后 的 版 本 中 已 经 将 这 个 文件 移 除 了 ， 
并 且 不 再 需要 这 个 文件 了 。 现 在 每 个 master 在 启动 的 时 候 都 会 
注册 到 ZooKeeper 中 ， 因 此 master 的 地 址 可 以 在 ZooKeeper 中 动 








2.6.4 log4j.properties 


修改 这 个 文件 中 的 参数 可 以 改变 HBase 的 日 志 级 别 ， 改 变 后 重启 
HBase， 新 配置 才能 生效 ， 此 外 还 可 以 通过 HBase 的 UI 界面 米 更 改 特定 
守护 进程 的 日 志 级 别 ， 详 情 见 12.4 节 。12.5.2 节 可 以 帮助 用 户 学 习 如 何 
通过 分 析 日 志 来 查找 和 解决 问题 。 


2.6.5 ”配置 示例 


下 面 示 例 是 一 个 10 个 节点 的 集群 。 节 点 的 名 字 分 别 
是 master.foo.com ，host1.foo.com 到 host9.foo.com 。HBase 
master 与 HDFS NameNode 都 运行 在 master.foo.com E, regionikó 4 
运行 在 host1.foo.com 到 host9.foo.com 上 。3 个 节点 的 ZooKeeper 分 
别 运行 在 zk1.foo.com 、zk2.foo.com 和 zk3.foo.com 中。 
ZooKeeper 的 元 数据 目录 设置 为 warzookeeper 。 主 要 的 配置 文件 
hbase-site.xml ~ regionservers ~ hbase-env.sh 都 可 以 在 HBase 的 
conf 目录 下 找到 ， 配 置 如 下 所 示 。 











1. hbase-site.xml 


该 文件 包括 定义 了 启动 HBase 集 群 的 基本 配置 信息 。 





< ?Xml version="1.0"?> 

< exml-stylesheet type="text/xsl" href="configuration.xs1"?> 

< configuration> 

< property> 
< name>hbase. zookeeper.quorum< /name> 
< value>zk1.foo.com,zk2.fo0o.com,zk3.foo.com< /value> 
/property> 
property> 
< name>hbase.zookeeper.property.dataDir< /name> 
< value>/var/zookeeper< /value> 
/property> 
property> 
< name>hbase.rootdir< /name> 
< value>hdfs://master.foo.com:900@/hbase< /value> 
/property> 
property> 
< name>hbase.cluster.distributed< /name> 
< value>true< /value> 
< /property> 
< /configuration> 





2. regionservers 


这 个 文件 中 记录 了 所 有 region 服 务 器 的 主机 列表 。 在 我 们 的 例子 
中 ， 除 了 运行 HBase Master 和 HDFS NameNode 的 节点 master .foo.com 
之 外 ， 所 有 节点 都 启动 了 region 服 务 器 进程 。 











3. hbase-env.sh 





修改 hbase-env.sh 文件 内 的 配置 只 需要 修改 内 容 中 的 默认 信息 即 
可 。 下 面 是 对 hbase-env.sh 中 默认 内 容 做 的 修改 ， 我 们 将 HBase 的 堆 设 置 
为 4GB， 以 蔡 代 默认 的 1 GB. 


# export HBASE_HEAPSIZE=1000 
export HBASE_HEAPSIZE=4096 








一 旦 用 户 编辑 完 配 置 文 件 ， 束 需要 将 文件 同步 到 集群 的 所 有 服务 右 
上 上 。 用 户 可 以 在 Unix 或 类 Unix 平 台中 使 用 rsync 完成 这 项 工作 ， 编 辑 完 
配置 文件 后 通过 rsync 就 可 以 将 conf 目录 同步 到 集群 其 他 节点 中 ， 详 情 
见 2.7 节 。 





”2.6 节 介绍 了 用 户 需 要 扩展 集群 时 所 需 修改 的 配置 。 


26.6 ”客户 端 配置 


HBase Master 能 够 在 物理 机 器 上 自由 移动 〈 详 情 见 12.1.3 节 的 “添加 
ASSL master”) ， 客 户 端 局 动 时 通过 ZooKeeper 来 获取 关键 信息 
( 见 8.5 节 ) ， 因 此 客户 端 必 须 在 pbase-site.xml 文件 中 配置 ZooKeeper 的 
连接 地 址 ， 同 时 要 将 hbase-site.xml 配置 到 启动 Java 进 程 的 CLASSPATH 
中 。 
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用 户 还 可 以 在 代码 中 设置 关键 配置 属 


性 hbase.zookeeper.quorum 。 这 种 做 法 可 以 保证 客户 端 不 
依赖 额外 的 配置 文件 。 详 情 见 3.2.1 节 。 


如 果 用 户 通过 IDE 运 行 HBase 客 户 端 ， 必 须 保证 conf 目录 已 经 在 
classpath 中 ， 这 样 才 能 够 保证 客户 端 代 码 找到 配置 文件 。 


HBase 的 Java 客 户 端 需要 在 CLASSPATH 中 指出 依赖 的 JAR 文 
件 : hbase ~ hadoop-core ~ zookeeper ~ log4j ~ commons-logging 和 
commons-lang 。 这 些 JAR 文 件 都 以 特定 发 布 版 本 号 为 后 组。 理想 情况 
下 ， 用 户 只 能 使 用 HBase 提 供 的 JAR， 而 不 能 随意 使 用 其 他 版 本 ， 因 为 
即使 轻微 的 版 本 变化 都 有 可 能 导致 客户 并 远程 访问 HBase 集 群 时 出 现 问 


jel o 





客户 端 使 用 的 hbase-site.xml 配置 的 例子 如 下 : 


< ?Xml version="1.0"?> 
< ?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
< configuration> 
< property> 
< name>hbase.zookeeper.quorum< /name> 


< value>zk1.foo.com,zk2.foo.com, zk3.foo.com< /value> 
< /property> 
< /configuration> 





2.7 whe 


— HHP Ace ef HBase-Z Ja, Be POR WMA EES Ee 
HBase。 由 于 Hadoop 和 HBase 是 Java 语 言 编写 的 ， 尽 管 有 少量 的 特殊 要 
求 ， 但 还 是 有 许多 方法 可 以 进行 集群 部 车 。 最 简单 的 就 是 在 服务 器 间 复 
制 所 有 文件 ， 因 为 这 样 可 以 使 服务 器 共享 相同 的 配置 文件 。 有 很 多 关于 
部 蜀 的 做 法 可 以 和 尝试， 首先 必须 确认 所 有 建议 的 配置 和 在 2.2 市 中 讨论 
= CAMAH, RA WE H as IT ABS AS T a ZT] DY Doe Fk He 
配置 。 


2.7.1 基于 脚本 


与 下 面 列 出 的 更 先进 的 方式 相 比 ， 基 于 脚本 的 方法 似乎 已 经 过 时 
了 。 基 于 脚本 模式 比较 适合 小 型 甚至 中 等 规模 的 集群 。 与 其 说 是 集群 的 
规模 不 如 说 是 运 维 人 员 的 数量 ， 在 一 个 更 大 的 操作 组 中 ， 管 理 员 不 得 不 
重复 部 署 ， 而 不 是 通过 脚本 来 更 新 集群 。 

脚本 利用 配置 文件 regionservers 作为 集群 服务 器 列表 。 例 2.2 展 示 了 
一 个 非常 简单 的 脚本 ， 这 个 脚本 可 以 实现 从 master 节 点 复制 HBase 发 布 
目录 到 其 他 slave 节 点 的 功能 。 


例 2.2 ”示例 脚本 在 HBase 集 群 中 复制 文件 








#!/bin/bash 
# Rsyncs HBase files across all slaves. Must run on master. Assumes 
# all files are located in /usr/local 


if [ "$#" != "2" ];then 
echo “usage: $(basename $@)< dir-name> < ln-name>" 
echo " example: $(basename $@)hbase-@.1 hbase" 
exit 1 

fi 


SRC_PATH="/usr/local/$1/conf/regionservers" 
for srv in $(cat $SRC_PATH);do 

echo "Sending command to $srv..."; 

rsync -vaz --exclude='logs/ *' /usr/local/$1 $srv:/usr/local/ 

ssh $srv "rm -fR /usr/local/$2;1n -s /usr/local/$1 /usr/local/$2" 
done 


echo "done." 





例 2.3 展 示 了 另 一 个 简单 的 脚本 ， 该 脚本 用 于 从 master 节 点 癌 其 他 所 
有 slave 节 点 复制 HBase 配 置 文件 。 在 master 服 务 器 上 编辑 过 配置 文件 
后 ， 通 过 这 个 脚本 可 以 将 配置 文件 同步 到 所 有 region 服 务 器 中 。 


例 2.3 ”示例 脚本 在 HBase 集 群 中 复制 文件 





#!/bin/bash 
# Rsync's HBase config files across all region servers. Must run on master 


for srv in $(cat /usr/local/hbase/conf/regionservers) ;do 

echo "Sending command to $srv..."; 

rsync -vaz --delete --exclude='logs/ *' /usr/local/hadoop/ $srv:/usr/ 1 
ocal/hadoop/ 


rsync -vaz --delete --exclude='logs/ *' /usr/local/hbase/ $srv:/usr/ lo 
cal/hbase/ 
done 


echo "done." 





这 个 脚本 与 第 一 个 脚本 类 似 ， 都 使 用 了 rsync ， 不 同 的 是 增加 了 -- 
delete 选项 以 确保 region 服 务 器 不 会 保留 任何 旧 文 件 ， 但 是 旧 文 件 的 副本 
会 保留 在 原始 服务 器 中 。 


很 显然 ， 还 有 很 多 方法 可 以 做 到 这 一 点 ， 上 述 的 例子 仅仅 是 为 了 方 
便 阅 读 。 用 户 需 要 管理 员 的 协助 ， 一 起 建立 一 套 机 制 来 保证 文件 的 同 
步 。 许 多 初学 者 党 第 碰 到 的 问题 部 是 由 于 集群 内 的 配置 不 一 致 引起 的 ， 
此 外 ， 更 新 配置 后 一 定 要 重 尼 才能 使 配置 生效 。 如 果 想 要 不 停机 就 使 更 
新 的 配置 生效 ， 用 户 可 以 查阅 12.1.3 市 。 


2.7.2 Apache Whirr 
越 来 越 多 的 用 户 希 望 能 够 在 动态 环境 中 运行 HBase 集 群 ， 如 公开 云 


服务 平台 Amazon 的 EC2 或 Rackspace 云 服务 ， 或 者 是 使 用 类 似 于 
Eucalyptus 的 开源 工具 的 私有 服务 右 。 


这 种 方式 的 优点 是 能 够 快速 地 获取 集群 的 负载 并 加 以 分 析 汇 总 ， 一 
旦 结果 检索 完毕 ， 立 即 关 闭 集群 ， 或 者 集群 资源 还 可 以 被 其 他 服务 所 利 
用 。 由 于 这 并 不 是 普通 的 程序 ， 其 需要 为 很 多 API 提 供 动态 集群 丸 构 ， 
其 工作 量 可 能 很 大 ， 所 以 有 必要 抽象 出 一 个 集群 管理 层 。 一 但 集群 部 署 
好 后 ， 用 户 就 可 以 像 在 本 地 静态 集群 上 一 样 执行 MapReduce 作 业 。 以 上 
就 是 Whirr 的 作用 。 


Whirr (详情 见 http://incubator.apache.org/whirr/@ ) 支持 各 种 公有 
和 私有 云 的 API， 并 提供 一 个 拥有 一 定 范 围 服务 的 集群 。 其 中 的 功能 之 
一 就 是 需要 文 持 HBase， 并 能 够 快速 地 在 动态 环境 中 部 署 完 整 的 HBase 
集群 。 











用 户 可 以 通过 上 述 地 址 下 载 Whirr 的 最 新 版 本 ， 并 能 够 在 recipes 目 
录 中 找到 预定 义 的 配置 文件 ， 可 以 直接 使 用 并 动态 部 署 集群 。 


Whirr 的 基本 原理 是 使 用 操作 系统 提供 的 简单 机 器 镜像 和 SSH 访 
问 。 其 他 步骤 则 由 Whirr 针 对 需求 执行 ， 例 如 ， 按 Hadoop 或 HBase 服 务 
的 方式 处 理 。 每 个 远程 服务 器 上 的 服务 都 会 执行 一 些 必 要 的 步骤 ， 例 
如 ， 创 建 用 户 账 户 、 下 载 和 安装 所 需要 的 软件 包 、 为 服务 编写 配置 文件 
等 。 这 些 步 又 是 高 度 可 定制 的 ， 用 户 可 以 根据 目 己 的 需求 添加 需要 的 步 


又 。 








2.7.3 Puppet 与 Chef 


类 似 于 Whir， 还 有 其 他 的 专用 部 署 框架 。Puppet 出 和 目 Puppet 实 验 室 
C http://www.puppetlabs.com/ ) , Chef 出 目 Opscode ( 
http://www.opscode.com/chef/ ) 。 


两 者 相似 的 地 方 是 ， 所 有 配置 文件 都 保存 在 中 央 配 置 服务 器 中 ， 
台 客 户 端 服务 器 都 与 中 央 配 置 服务 器 连接 ， 通 过 客户 端 软 件 监 听 配 置 的 
更 新 并 合并 到 本 地 。 


类 似 于 Whir， 上 述 两 者 都 有 recipes 的 概念 ， 本 质 上 会 转化 成 脚本 
或 命令 在 节点 上 执行 。 名 事实 上 ， 基 于 Puppet 或 Chef 的 进程 极 有 可 能 
代 Whirr 的 脚本 。 





Whirr 仅 用 于 引导 ，Puppet 和 Chef 还 可 用 于 变更 集群 ，master 进 程 监 
控 配 置 库 ， 并 检查 远程 是 否 更 新 ， 一 旦 发 生 更 新 则 触发 远程 操作 。 这 可 
以 协助 用 户 重 新 配置 集群 或 升级 新 版 本 ， 并 进行 滚动 重启 等 操作 。 
Whirr 可 以 概括 为 配置 管理 ， 但 功能 并 不 局 限于 配置 管理 。 











一 人 想必 读者 以 前 听 过 : 选择 一 个 自己 熟悉 的 做 法 或 先 
择 一 个 自己 喜欢 的 做 法 。 两 者 的 目标 是 一 样 的 ， 即 安装 集群 
节点 中 所 需要 的 所 有 东西 。 如 果 用 户 需要 一 个 完整 的 、 实 时 
更 新 的 、 基 于 Puppet 或 Chef 的 配置 管理 解决 方案 ， 那 么 与 
Whirr 结 合 使 用 是 正确 的 选择 。 


2.8 操作 集群 


如 打 用 户 现 在 准备 第 一 次 局 动 集群 ， 一 定 要 确认 服务 器 已 经 安装 
好 ， 并 配置 好 了 操作 系统 与 文件 系统 ， 此 外 还 要 确认 集群 所 需要 的 属性 
在 配置 文件 中 都 已 经 配置 完成 。 





2.8.1 确定 安装 运行 

首先 启动 HDFS。 运 行 HADOOP_HOME 目录 下 的 bin/start-dfs.sh 
与 bin/stop-dfs.sh 可 以 启动 与 关闭 HDFS。 之 后 用 户 可 以 通过 put 与 get 文 
件 来 验证 Hadoop 文 件 系 统 是 否 已 经 启动 成 功 。HBase 本 身 并 不 依赖 
MapReduce 守 护 进程 ， 只 有 在 需要 运行 MapReduce 作 业 的 时 候 才 需 要 启 
动 MapReduce 框 架 ， 具 体 细 市 见 第 7 章 。 


如 果 不 依赖 HBase 管 理 ZooKeeper， 则 需要 确保 独立 的 ZooKeeper 已 
经 运行 ;否则 HBase 会 把 ZooKeeper 作 为 HBase 进 程 的 一 部 分 启动 。 


如 果 用 户 需 要 启动 单机 模式 请 伍 阅 2.1 节 ， 局 动 完 全 分 布 式 模式 需 


要 如 下 命令 : 


bin/start-hbase.sh 


以 上 命令 需要 在 HBASE_HOME 目录 下 运行 。 如 果 HBase 已 经 运 
行 ， 可 以 在 logs 目录 的 子 目录 中 找到 HBase 运 行 日 志文 件 。 用 户 如 果 发 
现 HBase 没 有 按照 预期 运行 ， 请 参考 12.5.2 节 寻找 帮助 以 便 分 析 和 查找 问 


一 旦 HBase 局 动 ， 关 于 如 何 建 表 、 添 加 数据 、 扫 描 已 插入 的 数据 、 
茶 用 表 和 删除 表 等 操作 都 可 以 在 2.1 节 中 找到 帮助 信息 。 























2.8.2 Web UI 介 绍 


HBase Master 默 认 基于 Web 的 UI 服务 端口 为 60010，HBase region 服 
务 器 默认 基于 Web 的 UI 服 务 端 口 为 60030。 如 果 master 运 行 在 名 为 


master.foo.com 的 主机 中 ，master 的 主页 地 址 就 是 
http://master.foo.com:60010 ， 用 户 可 以 通过 Web 浏 览 器 输入 这 
个 地 址 查看 该 页 面 。 图 2-2 展 示 了 页 面 显示 结果 ， 更 多 信息 见 6.5 节 。 
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| | 六 Master: localhost:60000 
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Currently running tasks 


No tasks currently running on this node. 
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Regions in Transition 


No regions in transition. 


图 2-2 HBase Master 的 用 户 界 面 


这 个 页 面 中 可 以 查看 HBase 集 群 的 当前 状态 。 这 些 信息 分 成 了 若干 
块 ， 页 面 顶部 展示 了 集群 的 安装 信息 ， 还 可 以 看 到 当前 运行 的 任务 
(如果 有 的 话 ) o Catalog User 表 展 示 了 所 有 可 用 的 表 ， 从 这 里 可 以 
看 到 完整 的 表 结 构 。 














页 面 底部 显示 了 Region Servers 表 ， 展 示 了 当前 可 用 的 region 服 务 
器 。 最 底部 是 处 于 事务 状态 下 的 region， 这 些 region 当 前 可 能 处 于 系统 维 
护 状 态 。 


集群 启动 后 ， 用 户 不 仪 可 以 通过 页 面 检查 region 服 务 器 是 否 都 已 经 
正常 注册 到 master， 并 以 期 望 的 主机 名 显示 在 页 面 中 《客户 端 能 够 连 
fe) ， 还 可 以 检查 当前 局 动 的 HBase 与 Hadoop 版 本 是 个 正确 。 








2.8.3 ”Shell 介绍 


通过 2. 1 节 ， 你 可 以 使 用 HBase 提 供 的 Shell 命 令 行 ， 其 中 介绍 了 通过 
命令 行 模式 创建 表 、 新 增 和 更 新 数据 ， 以 及 删除 表 。 


HBase Shell 是 使 用 (J) Ruby ( http://jruby.org ) 的 IRB 实 现 的 命 ne & 
行 脚本 ，IRB 中 可 做 的 事情 在 HBase Shell 中 也 可 以 完成 。 通 过 以 下 命令 
就 可 以 运 & 47 Shell: 


$ $HBASE_HOME/bin/hbase shell 


HBase Shell;enter ‘help< RETURN>' for list of supported commands. 
Type "exit< RETURN>" to leave the HBase Shell 
Version @.91.@-SNAPSHOT, r1130916,Sat Jul 23 12:44:34 CEST 2011 


hbase(main) :001:@> 





输入 help 并 按 回 车 键 E 够 得 到 所 有 Shell 命 令 和 选项 。 浏览 帮助 文 
档 可 以 看 到 每 个 具体 的 命令 参数 的 用 法 (变量 、 命 令 参数 ) ; 特别 注意 
怎样 引用 表 名 、 行 键 、 列 名 等 。6.4 节 详细 介 细 了 Shall 的 相关 内 容 。 


由 于 HBase Shel] 是 基于 Ruby 实 现 的 ， 因 此 在 使 用 过 程 中 可 以 将 
HBase 命 令 与 Ruby 代 码 混 合 使 用 ， 你 可 以 按照 如 下 方式 使 用 : 


hbase(main):001:0> create 'testtable', 'colfam1' 








hbase(main):002:0> for i in 'a'..'z' do for j in 'a'..'z' do \ 


put 'testtable', "row-#{i}#{j}", "colfam1:#{j}", "#{j}" end end 





第 一 行 命令 是 创建 一 张 叫 testtable 的 表 ， 并 创建 一 个 叫 colfam1 
的 列 族 名 ， 列 族 的 属性 都 使 用 默认 属性 (详情 见 5.1.3 节 )〉 。 第 二 行 命令 
是 用 Ruby 代 码 循环 插入 多 行 数 据 到 刚刚 创建 的 表 中 。 行 键 开 始 于 row- 


aa 、row-ab ， 终 止 于 row-zz 。 


2.8.4 ”关闭 集群 


运行 以 下 命令 可 以 停止 HBase 集 群 。 一 旦 司 动 了 这 个 脚本 ， 你 将 会 
看 到 一 条 描述 集群 正在 停止 的 信息 ， 该 信息 会 周期 性 地 打印 “字符 〈 这 
仅仅 表明 脚本 正在 运行 ， 并 不 是 运行 进度 的 反 包 或 隐藏 的 有 用 信息 ) 。 











$ ./bin/stop-hbase.sh 


stopping hbase 
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行 时 间 可 能 更 长 。 如 果 用 户 运 行 的 是 分 布 式 模式 ， 在 关闭 Hadoop 焦 群 之 
前 一 定 要 确认 HBase 已 经 被 正常 关闭 了 。 











第 12 音 中 有 许多 更 高 级 的 管理 功能 ， 如 滚动 重 局 、 增 加 master 点 
等 。 如 果 集 群 无 法 启动 或 关闭 ， 第 12 章 里 也 有 相关 信息 ， 说 明 如 何 分 析 


和 解决 这 些 问题 。 











O tl;dr 是 英文 “too long; didn’t read” 的 缩写 ， 意 思 是 “ 太 长 ， 别 读 ”。 一 一 
译 者 注 


(2) 见 维基 百科 中 的 “Multi-core processor”( 
http://en.wikipedia.org/wiki/Multi-core ) 。 


© 见 维基 百科 中 的 “RAID”( http://en/wikipedia.org/wiki/RAID ) 。 


O 见 维基 百科 中 的 “JBOD” ( http://en/wikipedia.org/wiki/JBOD#JBOD 
) 


O 这 里 假定 每 个 磁盘 驱动 器 支持 的 IOPS 为 100 次 ， 单 个 磁盘 驱动 器 的 传 
输 吞 吐 量 就 是 100 MB/S- 


©) DistroWatch ( http://distrowatch.com/ ) 有 一 个 Linux 或 类 Linux 操 作 系 
统 的 流行 列表 并 按照 流行 程度 进行 了 排名 。 


@ 在 Ars Technica 网 站 上 看 到 的 招聘 信息 ，Google 聘 请 了 ext4 的 主要 开 
发 者 Theodore Ts*0。 他 宣布 继续 专注 于 ext4 和 其 他 的 Linux 内 核 功 能 的 研 
Ke 


A [ii] 4) x branch-0.20-appendf‘J CHANGES.txt ( 
http://svn.apache.org/viewvc/hadoop/common/branches/branch-0.20- 
append/CHANGES.txt ) 文件 可 以 看 到 所 有 新 增 的 补丁 。 


@@) 这 本 书 出 版 后 ， 信 息 发 生 更 改 是 很 正常 的 ， 有 关 详 情 和 最 新 细节 都 
可 以 在 配置 向 导 页 面 http:/hbase.apache.org/book/configuration.html 中 查 
询 ， 尤 其 是 http://hbase.apache.org/book/hadoop.html 这 一 节 。 








http:/www.cloudera.com/blog/2009/03/configuration-parameters-what- 
can-you-just-ignore/ 是 篇 来 自 Aaron Kimball 的 博文 ， 名 为 “What can you 
just ignore?”， 它 可 以 帮助 用 户 在 Hadoop 集 群 中 设置 配置 参数 。 


Dy 见 维基 百科 的 “Uniform Resource Identifier” ¢ 
http://en.wikipedia.org/wiki/Uniform_Resource_Identifier ) 。 


D 完整 列表 已 经 在 Tom White 的 文章 “Get to Know Hadoop 
Filesystems” 中 介绍 过 了 。 


@3 点 击 链 接 http://en.wikipedia.org/wiki/Amazon_S3 ， 可 以 查看 更 多 有 关 
Amazon S3 的 背景 信息 。 


见 维基 百科 的 EC2。 


(5) 见 链接 https:/issues.apache.org/jira/browse/HBASE? 
report=com.atlassian.jira.plugin.system.project:changelog-panel 。 


见 链接 https://issues.apache.org/jira/browse/HBASE? 
report=com.atlassian.jira.plugin.system.project:changelog- 
panel#selectedTab=com.atlassian.jira.plugin.system.project%3Achangelog- 
panel 。 


中 进程 以 守护 模式 在 后 台 运 行 ， 不 会 因为 执行 的 任务 终止 而 停止 运 
行 。 
伪 分 布 式 与 完全 分 布 式 的 概念 来 源 于 Hadoop。 


ZooKeeper 的 完整 配置 列表 可 在 zoo.cfg 中 见 到 。HBase 默 认 不 带 这 个 
文件 ， 所 以 需要 用 户 自 己 去 ZooKeeper 的 网 站 浏览 conf 目录 并 下 载 。 


W 编辑 XML 时 要 谨慎 ， 确 保 所 有 的 元 素 都 已 经 关闭 ， 用 户 可 以 通过 
o 或 类 似 的 工具 进行 检查 ， 以 确保 编辑 会 话 后 XML 仍 保持 一 个 恨 好 
和 格式 。 


D 编辑 完 配 置 后 ， 一 定 要 重启 服务 器 ， 但 这 种 工作 模式 随 着 时 间 的 推 
移 会 改变 。 


4D 请 注意 WwWhirr 是 一 个 Apache 基 金 会 旷 化 的 项 目 ， 一 旦 被 Apache 社 区 接 
受 并 羊 升 为 社区 正式 成 员 ， 就 会 被 转移 到 一 个 受 Apache 保 护 的 、 完 整 量 
永久 有 效 的 网 址 中 。 


B 一 些 可 用 的 配置 包 是 为 了 适应 早期 的 EC2 脚 本 创建 的 ， 被 用 于 部 署 




















HBase 到 动态 云 平台 中 。 有 关 Chef 的 详情 用 户 可 以 查阅 网 页 
http://cookbooks.opscode.com/cookbooks/hbase 。 有 关 Puppet 用 户 可 以 查 
ba] http://hstack.org/hstack-automated-deployment-using-puppet/ 和 
http://github.com/hstack/puppet 。 


第 3 草 BP GAP: 基础 知识 


本 章 将 会 介绍 HBase 提 供 的 客户 端 API。 在 前 文 提 到 过 ， HBase 是 使 
用 Java 编 瑟 的 ， 所 以 原生 的 API 也 是 Java 开 发 的 ， 个 过 这 并 不 意味 着 必须 
通过 Java 访 问 HBase。 我 们 会 在 第 6 章 介 绍 如 何 通 过 其 他 编程 语言 使 用 
HBase. 





3.1 概述 


HBase 的 主要 客户 端 接口 是 由 org.apache.hadoop.hbase.client 
包 中 的 HTable 类 提供 的 ， 通 过 这 个 类 ， 用 户 可 以 完成 加 HBase 存 储 和 
检索 数据 ， 以 及 删除 无 效 数据 之 类 的 操作 。 在 介绍 这 个 类 的 各 个 方法 之 
前 ， 让 我 们 先 了 解 一 下 它 的 大 体 功 能 。 

所 有 修改 数据 的 操作 都 保证 了 行 级 别 的 原子 性 ， 这 会 影响 到 这 一 
行 数 据 所 有 的 并 发 读 写 操作 。 换 句 话 说 ， 其 他 客户 端 或 线程 对 同一 行 的 
该 写 操 作 都 不 会 影响 该 行 数据 的 原子 性 : 要 么 读 到 最 新 的 修改 ， 要 么 等 
待 系统 允许 写 入 该 行 修改 。 更 多 内 容 请 参考 第 8 章 。 2 


通常 ， 在 正常 负载 和 营 规 操作 下 ， 客 户 端 读 操作 不 会 受到 其 他 修改 
数据 的 客户 问 影 响 ， 因 为 它们 之 闻 的 冲突 可 以 忽略 不 计 。 但 是 ， 当 许多 
客户 端 需 要 同时 修改 同一 行 数据 时 惑 会 产生 问题 。 所 以 ， 用 尸 应 当 尽 量 
使 用 批量 处 理 〈batch) 更 新 来 减少 单独 操作 同一 行 数据 的 次 数 。 

写 操作 中 涉及 的 列 的 数目 不 会 影响 该 行 数据 的 原子 性 ， 行 原子 性 会 
同时 保护 到 所 有 列 。 

最 后 ， 创 建 HTable 实例 是 有 代价 的 。 每 个 实例 都 需要 扫描 .META. 
表 ， 以 检查 该 表 是 人 否 存在 、 是 否 可 用 ， 此 外 还 要 执行 一 些 其 他 操作 ， 这 
些 检 查 和 操作 导致 实例 调用 非常 耗 时 。 因 此 ， 推 荐 用 户 只 创建 
次 HTable 实例 ， 而 且 是 每 个 线程 创建 一 个 ， 然 后 在 客户 端 应 用 的 生存 
期 内 复 用 这 个 对 象 。 


如 果 用 户 需 要 使 用 多 个 HTable 实例 ， 应 考虑 使 用 HTablePool 类 
(详情 见 4.4 节 ) ， 它 为 用 户 提供 了 一 个 复 用 多 个 实例 的 便捷 方式 。 
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”以 下 是 我 们 刚才 讨论 内 容 的 几 点 总 结 。 
































。 只 创建 一 次 HTable 实例 ， 一 般 在 应 用 程序 开始 时 创建 。 


。 为 执行 的 每 一 个 线程 (或 者 所 使 用 的 HTablePool ) fi! 
建 独立 的 HTable 实例 。 


。 所 有 的 修改 操作 只 保证 行 级 别 的 原子 性 。 


3.2 CRUD 操 作 


数据 库 的 初始 基本 操作 通常 被 称 为 CRUD (Create, Read, 
Update, Delete) ， 具 体 指 增 、 查 、 改 、 删 。HBase 中 有 与 之 相对 应 的 一 
组 操作 ， 随 后 我 们 会 依次 介绍 。 这 些 方法 都 由 HTable 类 提供 ， 本 章 后 面 
将 直接 引用 这 个 类 的 方法 ， 不 再 特别 提 到 这 个 包含 类 。 


接 下 来 介绍 的 操作 大 多 都 能 不 言 目 明 ， 但 本 书 有 一 些 细节 需要 大 家 
E E 











polly 
| i 
一 你 所 看 到 的 示例 源 代码 都 可 以 从 GitHub 的 公用 源 中 
下 载 ， 有 具体 地 址 为 https://github.com/larsgeorge/hbase-book 。 
如 果 需 要 了 解 源 码 编译 的 细节 ， 请 参考 前 言 中 的 “编译 示例 程 
som 








读者 一 开始 会 在 一 些 程序 的 开头 看 到 import 语句 ， 但 为 
了 简洁 ， 后 续 将 会 省 略 import 语句 。 同 时 ， 一 些 与 主题 不 太 
相关 的 代码 部 分 也 会 被 省 略 。 如 有 疑问 ， 请 到 上 面 的 地 址 中 
查阅 完整 源 代码 。 


3.2.1 put 方法 


下 面 介绍 的 这 组 操作 可 以 被 分 为 两 类 : 一 类 操作 用 于 单行 ， 另 一 类 
操作 用 于 多 行 。 鉴 于 后 面 有 一 些 内 容 比 较 复 杂 ， 我 们 会 分 开 介 绍 这 两 类 
操作 。 同 时 ， 我 们 还 会 介绍 一 些 衍生 的 客户 端 API 特 性 。 





1. 单行 put 





也 许 你 现在 最 想 了 解 的 就 是 如 何况 HBase 中 存储 数据 ， 下 面 就 是 实 
现 这 个 功能 的 调用 : 


void put(Put put) throws IOException 








这 个 方法 以 单个 Put 或 存储 在 列表 中 的 一 组 Put 对 象 作为 输入 参 
数 ， 其 中 Put 对 象 是 由 以 下 几 个 构造 毅 数 创建 的 : 


Put(byte[] row) 
Put(byte[] row, RowLock rowLock) 
Put(byte[] row, long ts) 


Put(byte[] row, long ts, RowLock rowLock) 





创建 Put 实例 时 用 户 需 要 提供 一 个 行 键 row ， 在 HBase 中 每 行 数据 
都 有 唯一 的 行 键 Crow key) 作为 标识 ， 跟 HBase 的 大 多 数 数据 类 型 一 
样 ， 它 是 一 个 Java 的 bytef[ ] 数组 。 用 户 可 以 按 自己 的 需求 来 指定 每 行 
的 行 键 ， 且 可 以 参考 第 9 章 ， 其 中 专门 有 一 节 详 细 讨 论 了 行 键 的 设计 
〈 见 9.1 节 ) 。 现 在 我 们 假设 用 户 可 以 随意 设置 行 键 ， 通 常情 况 下 ， 行 
键 的 含义 与 真实 场景 相关 ， 例 如 ， 它 的 含义 可 以 是 一 个 用 户 名 或 者 订单 
号 ， 它 的 内 容 可 以 是 简单 的 数字 ， 也 可 以 是 较 复 杂 的 UUID © 等 。 


HBase 非 常 友好 地 为 用 户 提供 了 一 个 包含 很 多 静态 方法 的 辅助 类 ， 
et 数组 。 例 3.1 提 供 了 方法 
I 部 分 清单 。 








例 3.1 Bytes 类 所 提供 的 方法 





static byte[] toBytes(ByteBuffer bb) 
static byte[] toBytes(String s) 
static byte[] toBytes(boolean b) 
static byte[] toBytes(long val) 
static byte[] toBytes(float f) 
static byte[] toBytes(int val) 


pO 


创建 Put 实例 之 后 ， 就 可 以 向 该 实例 添加 数据 了 ， 添 加 数据 的 方法 
WF: 


Put add(byte[] family, byte[] qualifier, byte[] value) 
Put add(byte[] family, byte[] qualifier, long ts, byte[] value) 
Put add(KeyValue kv) throws IOException 





每 一 次 调用 add() 都 可 以 特定 地 添加 一 列 数 据 ， 如 果 再 加 一 个 时 间 
惟 选 项 ， 就 能 形成 一 个 数据 单元 格 。 注 意 ， 当 不 指定 时 间 惟 调用 add( ) 
方法 时 ，Put 实例 会 使 用 来 自 构造 函数 的 可 选 时 间 戳 参数“〈 也 称 作 ts 
) ， 如 果 用 户 在 构造 Put 实例 时 也 没有 指定 时 间 戳 ， 则 时 间 惟 将 会 由 
region 服 务 器 设 定 。 


系统 为 一 些 高 级 用 户 提 供 了 KeyValue 实例 的 变种 ， 这 里 所 说 的 高 
级 用 户 是 指 知 着 怎样 检索 或 创建 这 个 内 部 类 的 用 尸 。KeyValue 实例 代 
表 了 一 个 唯一 的 数据 单元 格 ， 类 似 于 一 个 协调 系统 ， 该 系统 使 用 行 键 、 
列 族 、 列 限定 符 、 时 间 戳 指 同一 个 单元 格 的 值 ， 像 一 个 三 维 立 方 体系 统 
其中， 时 间 成 为 了 第 三 维度 ) 。 


获取 Put 实例 内 部 添加 的 KeyValue 实例 需要 调用 与 add() 相反 的 
方法 get(): 


List< KeyValue> get(byte[] family, byte[] qualifier) 
Map< byte[], List< KeyValue>> getFamilyMap() 








以 上 两 个 方法 可 以 查询 用 户 之 前 添加 的 内 容 ， 同 时 将 特定 单元 格 的 
言 妃 转换 成 KeyValue 实例 。 用 户 可 以 选择 获取 整个 列 族 (column 
family) 的 全 部 数据 单元 ， 一 个 列 族 中 的 特定 列 或 是 全 部 数据 。 后 面 的 
getFamilyMap() 方法 可 以 遍历 Put 实例 中 每 一 个 可 用 的 KeyValue 实 
例 ， 检 查 其 中 包含 的 详细 信息 。 





IR 
一 一 人 每 一 个 KeyValue 实例 包含 其 完整 地 址 ( 行 键 、 列 
族 、 列 限定 符 及 时 间 惟 ;和 实际 数据 。KeyValue 是 HBase 在 
存储 架构 中 最 底层 的 类 。8.2 节 将 会 详细 介绍 相关 内 容 。 对 于 
客户 端 API 所 用 到 的 KeyValue 类 中 的 方法 参见 3.2.1 节 。 














用 户 可 以 采用 以 下 这 些 方法 检查 是 否 存在 特定 的 单元 格 ， 而 不 需要 
it ETRE 


boolean has(byte[] family, byte[] qualifier) 
boolean has(byte[] family, byte[] qualifier, long ts) 
boolean has(byte[] family, byte[] qualifier, byte[] value) 


boolean has(byte[] family, byte[] qualifier, long ts, byte[] value) 





BAA EIA PEAS aL, ON a A, ER 
到 匹配 的 列 时 返回 true 。 第 一 个 方法 仅 检 查 一 个 列 是 人 否 存在 ， 其 他 的 
方法 则 增加 了 检查 时 间 戳 、 限 定 值 的 选项 。 
Put 类 还 提供 了 很 多 的 其 他 方法 ， 在 表 3-1 中 进行 了 概括 。 
表 3-1 Put 类 提供 的 其 他 方法 一 览 表 

















getRow() 


getRowLock() j 














ea | 重用 rowlock 参数 传递 给 构造 函数 的 可 选 的 锁 ID， 当 未 被 指定 时 
getLockId() : 


-1L 
许 关 闭 默认 启用 的 服务 器 端 预 写 日 志 (WAL) 功能 
代表 是 否 启用 了 WAL 的 值 


























getTimestamp() | 返回 相应 put 实例 的 时 间 戳 ， 该 值 可 在 构造 函数 中 由 ts 参数 传 入 。 
当 未 被 设 定时 返回 Long.MAX_VALUE 


ar 计算 当前 put 实例 所 需 的 堆 大 小 ， 既 包含 其 中 的 数据 ， 也 包含 内 部 
数据 结构 所 需 的 空间 


isEmpty() 检测 FamilyMap 是 否 含有 任何 keyvalue 实例 











numFamilies() 查询 FamilyMap 的 大 小 ， 即 所 有 的 keyvalue 实例 中 列 族 的 个 数 
size() 返回 本 次 put 会 添加 的 keyvalue 实例 的 数量 











th, 
一 一 注意 ， 表 3-1 所 列 的 put 类 中 的 那些 getter 函 数 仅 能 
够 获取 用 户 预 先 设 定 的 内 容 ， 实 际 应 用 中 很 少 用 到 它们 ， 仅 
当 用 户 在 代码 的 私有 方法 中 准备 实现 一 个 Put 实例 ， 并 在 其 
他 地 方 检 查 其 内 容 时 ， 才 会 用 到 它们 。 





例 3.2 展 示 了 如 何在 一 个 简单 的 程序 里 使 用 上 述 方法 。 


re 
一 人 本 章 的 示例 使 用 了 一 个 非常 有 限 的 精确 数据 集 。 当 
读者 查看 整个 源 代码 时 ， 会 注意 到 源 代码 使 用 了 一 个 名 叫 

HBaseHelper 的 内 部 类 。 该 内 部 类 会 创建 一 个 有 特定 行 和 列 
数量 的 数据 测试 表 。 这 让 我 们 更 容易 对 比 处 理 前 后 的 差异 。 





读者 可 以 将 代码 直接 放 到 本 地 主机 上 的 独立 HBase 实 例 中 
来 测试 ， 也 可 以 放 到 HBase 和 集群 上 测试 。 前 言 中 的 “编译 示例 
程序 ”一 节 解 释 了 如 何 编译 这 些 例子 。 读 者 可 以 大 胆 地 修改 这 





了 Ht 


分 代码 ， 以 便 更 好 地 体会 各 部 分 功能 。 


为 了 清除 前 一 步 示例 程序 执行 时 产生 的 数据 ， 示 例 代 码 
通常 会 删除 前 一 步 执行 时 所 创建 的 表 。 如 果 你 在 生产 集群 上 
运行 示例 ， 请 先 确保 表 名 无 冲突 。 通 常 示例 代码 创建 的 表 
为 testtable ， 这 个 名 称 容易 让 人 联想 到 表 的 用 途 。 


例 3.2” 癌 HBase 插 入 数据 的 示例 应 用 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.client.HTable; 
import org.apache.hadoop.hbase.client.Put; 

import org.apache.hadoop.hbase.util.Bytes; 


import java.io.IOException; 
public class PutExample { 


public static void main(String[] args) throws IOException { 
Configuration conf = HBaseConfiguration.create();@ 


HTable table = new HTable(conf,"testtable");@ 


Put put = new Put(Bytes.toBytes("row1"));©6 


put.add(Bytes.toBytes("colfami") ,Bytes.toBytes("qual1"), 
Bytes.toBytes("val1"));@ 

put.add(Bytes.toBytes("colfami"),Bytes.toBytes("qual2"), 
Bytes.toBytes("val2")) 56 


table.put(put); © 





@ 创建 所 需 的 配置 。 


O 实例 化 一 个 新 的 客户 端 。 

O 指定 一 行 来 创建 一 个 Put 。 

O 向 put 中 添加 一 个 名 为 “colfam1:qual1” 的 列 。 
O 向 Put 中 添加 男 一 个 名 为 “colfam1:qual2” 的 列 。 
O 将 这 一 行 存储 到 HBase 表 中 。 


这 个 示例 代码 (几乎 ) 十 分 完整 ， 并 且 每 一 行 都 进行 了 解释 。 以 后 
的 示例 会 逐渐 减少 样板 代码 ， 以 便 读 者 能 将 注意 力 集中 到 重要 的 部 分 。 





通过 客户 端 代码 访问 配置 文件 


2.6.7 节 介绍 了 HBase 客 户 端 应 用 程序 使 用 的 配置 文件 。 
应 用 程序 需要 通过 默认 位 置 (classpath〉 下 的 hbase-site.xml 
文件 来 获知 如 何 访 问 集 群 ， 此 外 也 可 以 在 代码 里 指定 集群 
的 地 址 。 


无 论 哪 种 方式 ， 都 需要 在 代码 中 使 用 一 
个 HBaseConfiguration 类 来 处 理 配 置 的 属性 。 可 以 使 用 
该 类 提供 的 以 下 静态 方法 构建 Configuration 实例 : 


static Configuration create() 
static Configuration create(Configuration that) 





例 3.2 中 使 用 了 create() 来 获得 Configuration 实 
例 。 第 二 个 方法 允许 你 使 用 一 个 已 存在 的 配置 ， 该 配置 会 
融合 并 履 盖 HBase 默 认 配 置 。 


当 你 调用 任何 一 个 静态 create() 方法 时 ， 代 码 会 尝试 
使 用 当前 的 Java classpath 来 载 入 两 个 配置 文件 ，hbase- 


default.xml 和 jhbase-site.xml 。 


如 果 使 用 create(Configuration that) 方法 指定 一 
个 已 存在 的 配置 ， 那 么 与 所 有 从 classpath 载 入 的 配置 相 比 ， 
用 户 指 定 的 配置 优先 级 最 高 。 





HBaseConfiguration 类 继承 自 Hadoop 的 
Configuration 类 ， 但 是 HBaseConfiguration 类 仍然 和 
Configuration 类 兼容 用 户 可 以 提交 一 个 Hadoop 的 
Configuration 实例 ， 它 们 的 内 容 可 以 很 好 地 合并 。 


当 用 户 获 得 了 一 个 HBaseConfiguration 实例 之 后 ， 
其 实 已 获得 了 一 个 已 经 合并 过 的 配置 ， 其 中 包括 默认 值 和 
在 hbase-site.xml 配置 文件 中 重 写 的 属性 ， 以 及 一 些 用 户 提 
交 的 可 选 配置 。 在 使 用 HTable 实例 之 前 ， 用 户 可 以 任意 地 
修改 配置 。 例 如 ， 可 以 重 写 ZooKeeper 的 可 用 连接 地 址 来 定 
位 到 另 一 个 集群 : 











Configuration config = HBaseConfiguration.create(); 
config.set("hbase.zookeeper. quorum", "zk1.foo.com, zk2.f00.com") ; 


[L CR 





换 名 话说， 可 以 简单 地 忽略 任何 外 部 的 客户 端 配置 文 
件 ， 而 直接 在 代码 中 设置 hbase.zookeeper.quorum 属 
性 。 这 样 就 创建 了 一 个 不 需要 额外 配置 的 客户 端 。 





同时 应 该 共享 配置 实例 ，4.6 节 解释 了 这 样 做 的 原因 。 


现在 又 可 以 使 用 Shell 命 令 行 ( 详 情 见 2.1 市 ) 来 验证 插入 是 否 成 功 
了 : 


hbase(main) :001:@>list 


TABLE 
testtable 
1 row(s) in 0.0400 seconds 


hbase(main):0@2:@>scan 'testtable' 


ROW COLUMN+CELL 
rowl column=colfam1: qual1, timestamp=1294065304642, value=val1 
1 row(s) in 0.2050 seconds 





在 创建 Put 实例 时 用 到 的 另 一 个 可 选 参数 是 ts , BVA AK 
(timestamp) 。 在 HBase 表 中 ， 时 间 戳 使 用 户 可 以 在 HBase 表 中 将 数据 
存储 为 一 个 特定 版 本 。 


数据 的 版 本 化 


HBase 的 一 个 特殊 功能 是 ， 能 为 一 个 单元 格 〈 一 个 特定 
列 的 值 ) 存储 多 个 版 本 的 数据 。 这 是 通过 每 个 版 本 使 用 一 
个 时 间 惟 。 并 且 按 照 降 序 存 储 来 实现 的 。 每 个 时 间 惟 是 一 
个 长 整 型 值 ， 以 坚 秒 为 单位 。 它 表示 自 世 界 标准 时 间 
(UTC) 1970 年 1 月 1 日 0 时 以 来 所 经 过 的 时 间 ， 这 个 时 间 又 
称 为 Unix 时 间 © 或 Unix 纪 元 。 大 多 数 操作 系统 都 有 一 个 时 
钟 获取 函数 来 读 取 这 个 时 间 。 例 如 ， 在 Java 中 可 以 使 
用 System.currentTimeMillis() 函数 。 











将 数据 存 入 HBase 时 ， 要 么 显 式 地 提供 一 个 时 间 戳 ， 要 
么 忽略 该 时 间 戳 。 如 果 用 户 忽略 该 时 间 戳 的 话 ， 
RegionServer 会 在 执行 put 操作 的 时 候 填 充 该 时 间 戳 。 


如 2.2 市 所 述 ， 必 须 确保 服务 器 的 时 间 是 正确 的 ， 并 且 
互相 之 间 是 同步 的 。 用 户 可 能 无 法 控制 客户 端 时 间 ， 所 以 
很 可 能 会 与 服务 占 时 间 不 同 ， 可 能 会 相差 儿 小 时 其 至 相差 
几 年 。 


如 果 用 户 不 指定 时 间 ， 那 么 客户 端 API 调 用 会 以 服务 器 
端 时 间 为 准 。 一 旦 需要 使 用 并 指定 明确 的 时 间 礁 ， 用 户 需 
要 确保 不 受 一 些 可 能 发 生 的 意外 的 影响 。 客 户 端 可 能 会 使 
用 意 想不到 的 时 间 惟 来 插入 数据 ， 从 而 产生 看 似 无 序 的 版 
本 历史 。 


里 然 大 多 数 程序 并 不 担心 版 本 化 问题 ， 并 且 依 赖 于 
HBase 内 置 的 处 理 时 间 戳 的 方法 ， 但 是 如 果 要 使 用 目 定义 的 
时 间 戳 ， 就 应 该 了 解 这 些 特性 。 


下 面 展 示 了 如 何 加 一 个 单元 格 插入 并 且 获 取 多 版 本 数 
据 。 





hbase(main):001:0> create 'test','cf1 


© row(s) in 0.9810 seconds 


hbase(main):002:@> put 'test', 'row1l','cf1','val1' 


© row(s)in 0.0720 seconds 


hbase(main):003:@> put ‘test’, 'row1','cf1','val2' 


© row(s) in 0.0520 seconds 


hbase(main):004:@> scan ‘test’ 


ROW COLUMN+CELL 
row1 column=cf1: , timestamp=1297853125623, value=val2 
1 row(s) in 0.0790 seconds 


hbase(main):0@05:@> scan 'test',{ VERSIONS => 3 } 


ROW COLUMN+CELL 
row1 column=cf1: , timestamp=1297853125623, value=val2 
row1 column=cf1: , timestamp=1297853122412, value=val1 


1 row(s) in 0.0640 seconds 


| 


该 示例 在 test 表 中 创建 了 一 个 名 为 cf1 的 列 族 。 两 
Aput 命令 使 用 了 相同 的 行 键 和 列 键 ， 但 它们 的 值 不 同 : 
分 别 为 vall 和 val2 。 然 后 使 用 scan 操作 得 看 了 这 张 表 的 
所 有 内 容 。 你 可 能 并 不 慰 讶 于 只 看 到 了 val2 ， 因 为 你 可 能 
已 经 假设 第 二 次 put HEA m J vall. 


但 是 在 HBase 中 并 不 是 这 样 的 。 默 认 情 况 下 ，HBase 会 
保留 3 个 版 本 的 数据 ， 用 户 可 以 利用 这 种 特性 ， 稍 稍 修 
改 scan 操作 以 便 获取 所 有 可 获得 的 数据 ( 即 版 本 ) 。 示 例 
中 的 最 后 一 个 命令 列 出 了 所 有 存储 的 数据 版 本 。 注 意 ， 即 
使 所 有 输出 的 行 键 都 是 相同 的 ， 在 Shell 的 输出 中 ， 所 有 的 
单元 格 都 是 以 单独 的 一 行 输出 的 。 








scan 操作 和 get 操作 只 会 返回 最 后 的 〈 也 叫 最 新 的 ) 
版 本 ， 这 是 因为 HBase 默 认 按照 版 本 的 降序 存储 ， 并 且 只 返 
回 一 个 版 本 。 在 调用 中 加 入 最 大 版 本 (maximum version) 
参数 就 可 以 获得 多 个 版 本 的 数据 ， 如 果 将 参数 值 设 定 
为 Integer.MAX_VALUE ， 就 可 以 获得 所 有 的 版 本 。 








正如 最 大 版 本 的 术语 所 表现 出 来 的 意思 一 样 ， 对 于 一 
个 特定 的 单元 格 ， 有 可 能 只 有 少 于 最 大 版 本 数 个 数 版 本 。 
示例 将 VERSIONS (MAX_VERSIONS 的 缩写 ) 设 为 3， 但 是 
该 单元 格 只 存储 了 两 个 版 本 的 数据 ， 所 以 就 列 出 了 两 个 。 








为 一 个 获取 多 个 版 本 数据 的 方法 是 ， 使 用 时 间 范 围 参 





数 。 只 需要 设置 开始 时 间 和 结束 时 间 ， 就 能 获得 所 有 满足 
时 间 范 围 的 版 本 数据 。 更 多 有 关 这 一 方面 的 内 容 ， 请 参考 
3.2.270 Al3.575 © 


天 于 版 本 化 ， 有 很 多 细小 《有 些 也 不 算 小 ) 的 问题 ， 
将 在 8.4 市 继续 讨论 ， 而 且 还 会 在 9.6 市 重新 讨论 更 高 级 的 概 
念 ， 以 及 不 标准 的 行为 。 


如 果 读 者 不 指定 该 参数 ， 当 数据 存储 到 底层 文件 系统 时 ， 
RegionServer 会 将 当前 行 的 时 间 惟 隐 式 地 设 定 为 系统 当前 时 间 。 


Put 类 的 构造 函数 还 有 一 个 名 为 rowlock 的 可 选 参 数 ， 它 允许 提交 
一 个 额外 的 行 锁 Crow lock) ， 详 见 3.4 节 。 最 后 还 要 说 一 句 ， 寿 需要 频 
繁 地 重复 修改 某 些 行 ， 用户 有 必要 创建 一 个 RowLock 实例 来 防止 其 他 客 
户 端 访 问 这 些 行 。 





2. KeyValue 类 








在 代码 中 有 时 需要 直接 处 理 KeyValue 实例 。 你 可 能 还 记得 之 前 讨 
论 过 的 那些 实例 ， 它 们 都 含有 一 个 特定 单元 格 的 数据 以 及 坐标 
(coordinate) 。 坐 标 包 括 行 键 、 列 族 名 、 列 限定 符 以 及 时 间 惟 。 该 类 
提供 了 特别 多 的 构造 器 ， 人 允许 以 各 种 方式 组 合 这 些 参 数 。 下 面 展 示 了 包 
括 所 有 参数 的 构造 右 : 


KeyValue(byte[] row, int roffset, int rlength, 
byte[] family, int foffset, int flength, byte[] qualifier, int qoffset, 


int qlength, long timestamp, Type type, byte[] value, int voffset, 
int vlength) 








th, 
一 一 建议 将 Keyvalue 类 和 它 的 比较 器 都 设计 为 HBase 内 
部 使 用 。 只 在 客户 端 API 的 几 个 地 方 出 现 ， 以 便 用 户 访问 原始 
数据 ， 这 样 可 以 避免 额外 的 复制 操作 。 还 可 以 允许 基于 字 节 
的 比较 ， 而 不 是 依靠 比较 慢 的 基于 类 的 比较 。 


数据 和 坐标 都 是 以 Java 的 byte[ ] 形式 存储 的 ， 即 以 字 节 数组 的 形 
式 存 储 的 。 使 用 这 种 底层 存储 类 型 的 目的 是 ， 允 许 存储 任意 类 型 的 数 
据 ， 并 且 可 以 有 效 地 只 存储 所 需 的 字 市 ， 这 保证 了 最 少 的 内 部 数据 结构 
开销 。 男 一 个 原因 是 ， 每 一 个 字 节 数组 都 有 一 个 offset 参数 和 一 
‘length 参数 ， 它 们 允许 用 户 提交 一 个 已 存在 的 字 市 数组 ， 并 进行 效 
率 很 高 的 字 市 级 别 的 操作 。 














坐标 中 任意 一 个 成 员 都 有 一 个 getter 方 法 ， 可 以 获得 字 节 数组 以 及 
它们 的 参数 offset 和 1length 。 不 过 也 可 以 在 最 顶层 访问 它们 ， 即 直接 
读 取 底 层 字 节 绥 冲 区 : 





byte[] getBuffer() 
int getOffset() 
int getLength() 





它们 返回 当前 KeyValue 实例 中 字 节 数组 完整 信息 。 用 户 用 到 这 些 
方法 的 场景 很 少 ， 但 是 在 需要 的 时 候 ， 还 是 可 以 使 用 这 些 方法 的 。 


还 有 两 个 有 意思 的 方法 : 











byte [] getRow() 
byte [] getKey() 


读者 也 许 会 问 这 样 一 个 问题 : 行 Gow) 和 键 Chey) 有 什么 区 
别 ? 关于 它们 的 区 别 将 在 8.2 节 中 描述 。 行 目前 来 说 指 的 是 行 键 ， 即 Put 
构造 器 里 的 row 参数 。 而 在 之 前 介绍 的 内 容 中 ， 键 是 一 个 单元 格 的 坐 
标 ， 用 的 是 原始 的 字 节 数 组 格式 。 在 实践 中 ， 几 乎 用 不 到 getKey() ， 
但 有 可 能 会 用 到 getRow() 。 


KeyValue 类 还 提供 一 系列 实现 了 Comparator 接口 的 内 部 类 ， 可 
以 在 代码 里 使 用 它们 来 实现 与 HBase 内 部 一 样 的 比较 器 。 当 需要 使 用 
API 获 取 KeyValue 实例 时 ， 并 进一步 排序 或 按 顺序 处 理 时 ， 束 要 用 到 
RHE LL AS. FE3-2Fi) H T IK HE LLB AE 





表 3-2 KeyValue 类 提供 的 比较 器 的 简要 概述 


ce 
p 比较 两 个 Keyvalue 实例 的 字 节 数组 格式 的 行 键 ， 即 getkey() 方法 的 
eyComparator 返回 值 


kiconparator 是 Keycomparator 的 封装 ， 基 于 两 个 给 定 的 keyvalue 实例 ， 提 供 
与 KeyComparator 一 样 的 功能 


比较 两 个 keyvalue 实例 的 行 键 〈getRow() 的 返回 值 ) 











比较 两 个 以 字 节 数组 格式 表示 的 .META. 条 目的 行 键 


KVComparator 类 的 一 个 特别 版 本 ， 用 于 比较 .META. 目录 表 中 的 条 
MetaComparator =] PADEN 
目 ， 是 Metakeycomparator 的 封装 


RootKeyComparator | 比较 两 个 以 字 节 数组 格式 表示 的 -RooT- 条 目的 行 键 
KVComparator 类 的 一 个 特别 版 本 ， 用 于 比较 -RooT- 目录 表 中 的 条 
RootComparator = hoe 
Ep xe RootKeyComparator 的 NA 


KeyValue 类 将 大 部 分 的 比较 器 按照 静态 实例 提供 给 其 他 类 使 用 。 
例如 ， 有 一 个 公有 变量 KEY_COMPARATOR ， 让 用 户 可 以 访问 
KeyComparator 实例 。COMPARATOR 变量 指向 使 用 更 频繁 的 
KVComparator 实例 。 所 以 可 以 不 用 创建 自己 的 实例 ， 而 是 使 用 提供 的 
实例 。 例 如 ， 可 以 按照 以 下 方法 创建 一 个 KeyValue 实例 的 集合 ， 这 个 
集合 可 以 按照 HBase 内 部 使 用 的 顺序 来 排序 : 



































TreeSet< KeyValue> set = 
new TreeSet< KeyValue>(KeyValue.COMPARATOR ) 


[L E 


KeyValue 实例 还 有 一 个 变量 (一 个 额外 的 属性 ) ， 代 表 该 实例 的 
唯一 坐标 : 类 型 。 表 3-3 列 出 了 所 有 可 能 的 值 。 


表 3-3 KeyValue 实例 所 有 可 能 的 类 型 值 








为 墓碑 标记 


与 Delete 相同 ， 但 是 会 删除 一 整 列 


peleteFamily | 与 Delete 相同 ， 但 是 会 删除 整个 列 族 ， 包 括 该 列 族 的 所 有 列 








可 以 通过 使 用 必 外 一 个 方法 来 得 看 一 个 KeyValue 实例 的 类 型 ， 例 
H: 


String toString() 





该 方法 会 按照 以 下 格式 打印 出 当前 KeyValue 实例 的 元 信息 : 


< row-key>/< family>:< qualifier>/< version>/< type>/< value-length> 








这 个 方法 会 用 在 本 书 的 一 些 示 例 代 码 中 ， 用 于 检查 数据 是 否 被 标记 
或 者 被 恢复 ， 同 时 也 可 以 查看 元 信息 。 


该 类 有 很 多 更 便捷 的 方法 : 允许 对 存储 数据 的 其 中 一 部 分 进行 比 





较 ， 检 查实 例 的 类 型 是 什么 ， 获 得 它 已 经 计算 好 的 堆 大 小 ， 克 隆 或 者 复 
制 该 类 等 。 有 一 些 静 态 方法 可 以 创建 一 些 特殊 的 KeyValue 实例 ， 用 以 
在 HBase 内 更 底层 地 比较 或 者 操作 数据 。 可 以 参考 Java 文 档 来 了 解 更 多 
的 内 容 © 。 还 可 以 查看 8.2 节 ， 该 节 详 细 地 解释 了 KeyValue 原始 的 二 进 
制 格式 内 容 。 





3. 客户 端的 写 缓冲 区 


每 一 个 put 操作 实际 上 都 是 一 个 RPC © 操作 ， 它 将 客户 端 数据 传送 
到 服务 器 然后 返回 。 这 只 适合 小 数据 量 的 操作 ， 如 末 有 个 应 用 程序 需要 
每 秒 存储 上 干 行 数据 到 HBase 表 中 ， 这 样 的 处 理 就 不 太 合 适 了 。 


一 一 减少 独立 RPC 调 用 的 关键 是 限制 往返 时 间 (round- 
trip time) ， 往 返 时 间 就 是 客户 端 发 送 一 个 请 求 到 服务 器 ， 然 
后 服务 器 通过 网 络 进行 响应 的 时 间 。 这 个 时 间 不 包含 数据 实 
际 传输 的 时 间 ， 它 其 实 就 是 通过 线路 传送 网 络 包 的 开销 。 一 
般 情况 下 ， 在 LAN 网 络 中 大 约 要 花 1 毫秒 的 时 间 ， 这 意味 着 在 
1 秒 钟 的 时 间 内 只 能 完成 1000 次 RPC 往 返 响应 。 














为 一 个 重要 的 因素 束 是 消 轧 大 小 。 如 末 通 过 网 络 发 送 的 
请 求 内 容 较 大 ， 那 么 需要 请 求 返回 的 次 数 相应 较 少 ， 这 是 因 
为 时 间 主 要 花费 在 数据 传递 上 。 不 过 如 果 传 送 的 数据 量 很 
小 ， 比 如 一 个 计数 需 递 增 操 作 ， 那 么 用 户 把 多 次 修改 的 数据 
批量 提交 给 服务 器 并 减少 请 求 次 数 ， 性 能 会 有 相应 提升 。 


HBase 的 API 配 备 了 一 个 客户 端的 写 缓冲 区 (write buffer) , YF 
区 负责 收集 put 操作 ， 然 后 调用 RPC 操 作 一 次 性 将 put 送 往 服务 器 。 全 
局 交换 机 控制 着 该 缓冲 区 是 否 在 使 用 ， 以 下 是 其 方法 : 





void setAutoFlush(boolean autoFlush) 
boolean isAutoFlush() 








默认 情况 下 ， 客 户 端 缓冲 区 是 禁用 的 。 可 以 通过 将 自动 刷 写 
Cautoflush) 设置 为 false 来 激活 缓冲 区 ， 调 用 如 下 : 


table.setAutoFlush(false) 


启用 客户 端 缓冲 机 制 后 ， 用 户 可 以 通过 isAutoFlush() 方法 检查 
标识 的 状态 。 当 用 户 初始 化 创建 一 个 HTable 实例 时 ， 这 个 方法 将 返回 
true ， 如 果 有 用 户 修改 过 缓冲 机 制 ， 它 会 返回 用 户 当 前 所 设 定 的 状 
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激活 客户 端 缓冲 区 之 后 ， 用 户 可 以 像 3.2.1 节 “单行 put ”中 介绍 的 那 
样 ， 将 数据 存储 到 HBase 中 。 此 时 的 操作 不 会 产生 RPC 调 用 ， 因 为 存储 
的 Put 实例 保存 在 客户 端 进程 的 内 存 中 。 当 需要 强制 把 数据 写 到 服务 端 
时 ， 可 以 调用 另外 一 个 API 函 数 : 


void flushCommits() throws IOException 


flushCommits() 方法 将 所 有 的 修改 传送 到 远程 服务 器 。 被 缓冲 的 
Put 实例 可 以 路 多 行 。 客 户 端 能 够 批量 处 理 这 些 更 新 ， 并 把 它们 传送 到 
对 应 的 region 服 务 器 。 和 调用 单行 put() 方法 一 样 ， 用 户 不 需要 担心 数 
据 分 配 到 了 哪里 ， 因 为 对 于 用 户 来 说 ，HBase 客 户 端 对 这 个 方法 的 处 理 
是 透明 的 。 图 3-1 展 示 了 在 客户 端 请 求 传 送 到 服务 器 之 前 ， 是 怎样 按 
sla 并 通过 每 个 region 服 务 器 的 RPC 请 求 将 数据 传送 
BARA KEH] o 
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图 3-1 客户 端 put 操作 按 所 属 region 服 务 器 排序 和 分 组 


用 户 可 以 强制 刷 写 缓冲 区 ， 不 过 这 通常 不 是 必要 的 ， 因 为 API 会 奶 
踩 统计 每 个 用 户 添 加 的 实例 的 堆 大 小 ， 从 而 计算 出 缓冲 的 数据 量 。 除 了 
奶 踪 所 有 的 数据 开销 ， 还 会 奶 踪 必要 的 内 部 数据 结构 ， 一 旦 超出 缓冲 指 
定 的 大 小 限制 ， 客 户 端 就 会 隐 式 地 调用 刷 写 命令 。 用 户 可 以 通过 以 下 调 
用 来 配置 客户 器 写 缓冲 区 的 大 小 : 








long getWriteBufferSize() 
void setWriteBufferSize(long writeBufferSize) throws IOException 





默认 的 大 小 是 2 MB (82 097 1525277) ， 这 个 大 小 比较 适中 ， 一 
般 用 户 插 入 HBase 中 的 数据 都 相当 小 ， 即 每 次 插入 的 数据 都 远 小 于 缓冲 
区 的 大 小 。 如 果 需 要 存储 较 大 的 数据 ， 可 能 就 需要 考虑 增 大 这 个 数值 ， 
端 更 高 效 地 将 一 定数 量 的 数据 组 成 一 组 ， 通 过 一 个 RPC 请 
求 来 执行 。 


wv 
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一 一 给 每 一 个 用 户 创建 的 HTable 实例 都 设 定 缓冲 区 大 
小 十 分 麻烦 ， 为 了 避免 这 个 麻烦 ， 用 户 可 以 在 hbase-site.xml 
配置 文件 中 添加 一 个 较 大 的 预 设 值 。 例 如 : 





< property> 
< name>hbase.client.write.buffer< /name> 
< value>20971520< /value> 


/property> 





这 会 将 缓冲 区 大 小 增加 到 20 MB。 


缓冲 区 仅 在 以 下 两 种 情况 下 会 刷 写 。 
显 式 刷 写 
用 户 调用 flushCommits() 方法 ， 把 数据 发 送 到 服务 器 做 永久 存 


储 。 
Betz hill 


隐 式 刷 写 会 在 用 户 调 用 put() aksetwriteBufferSize() 方法 时 
触发 。 这 两 个 方法 都 会 将 目前 占用 的 缓冲 区 大 小 与 用 户 配置 的 大 小 做 比 
较 ， 如 果 超 出 限制 则 会 调用 flushCommits() 方法 。 如 果 绥 冲 区 被 禁 
用 ， 可 以 设置 setAutoFlush(true) ， 这 样 用 户 每 次 调用 put() 方法 时 
都 会 触发 刷 写 。 


此 外 调用 HTable 类 的 close() 方法 时 也 会 无 条 件 地 隐 式 触发 刷 


rammed 


5 
例 3.3 展 示 了 客户 端 API 如 何 控制 写 缓冲 区 。 
例 3.3 ”使 用 客户 端 写 缓冲 区 


HTable table = new HTable(conf,"testtable"); 
System.out.println("Auto flush: " + table.isAutoFlush()); @ 


table.setAutoFlush(false) ;@ 


Put put1 = new Put(Bytes.toBytes("row1") ); 

put1.add(Bytes.toBytes("colfami"),Bytes.toBytes("qual1"), 
Bytes.toBytes("val1")); 

table.put(put1);6 


Put put2 = new Put(Bytes.toBytes("row2") ); 

put2.add(Bytes.toBytes("colfami"),Bytes.toBytes("qual1"), 
Bytes.toBytes("val2")); 

table.put(put2); 

Put put3 = new Put(Bytes.toBytes("row3") ); 

put3.add(Bytes.toBytes("colfami"),Bytes.toBytes("qual1"), 
Bytes. toBytes("val3")); 

table. put(put3); 


Get get = new Get(Bytes.toBytes("row1")); 
Result resi = table.get(get); 
System.out.println( "Result: " + res1);@ 


table.flushCommits();6 


Result res2 = table.get(get); 
System.out.println("Result: " + res2);0 





@@ 检 查 自动 刷 写 标识 位 的 设置 ， 应 该 会 打印 出 “Auto flush: true”. 
@ 设 置 自动 刷 写 为 false ， 启 用 客户 端 写 缓冲 区 。 
和 将 一 些 行 和 列 数据 存 入 HBase。 


四 试图 加 载 移 前 存储 的 行 ， 结 果 会 打印 出 “Result: 
keyvalues=NONE”. 


全 强制 刷 写 缓冲 区 ， 会 导致 产生 一 个 RPC 请 求 。 
@ 现 在 ， 这 一 行 被 持久 化 了 ， 可 以 被 读 取 了 。 


这 个 例子 展示 了 一 个 用 户 之 前 意 想不到 的 ， 使 用 缓冲 区 之 后 产生 的 
现象 。 让 我 们 看 看 当 执 行 它 时 会 打印 出 什么 : 


Auto flush: true 
Result: keyvalues=NONE 
Result: keyvalues={row1/colfam1:qual1/1300267114099/Put/vlen=4} 





虽然 还 没有 介绍 过 get() 操作 ， 但 你 应 该 能 够 正确 地 推断 出 它 是 用 
于 从 服务 需 读 取 数 据 的 。 例 子 中 的 第 一 个 get () 操作 返回 了 一 个 NONE 
， 这 是 什么 意思 呢 ? 这 是 由 于 客户 端的 写 缓 冲 区 是 一 个 内 存 络 构 ， 存 储 
了 所 有 未 刷 写 的 记录 ， 这 些 数据 记录 尚未 发 送 到 服务 器 ， 因 此 用 户 无 法 


访问 它 。 


+ 
wW 1 
一 用 户 可 以 使 用 以 下 方法 访问 客户 端 写 缓冲 区 的 内 
容 : ArrayList<Put> getWriteBuffer() 。 这 个 方法 可 以 
获取 table.put(put) 添加 到 缓冲 区 中 的 Put 实例 列表 。 














前 面 提 到 过 ， 正 是 由 于 该 列表 ， 使 得 HTabjle 类 被 多 个 线 
程 操 作 时 不 安全 。 下 接 操作 那个 列表 的 时 候 要 非常 小 心 ， 因 
为 这 将 绕 过 堆 大 小 的 检查 ， 同 时 还 有 可 能 遇 到 缓冲 区 正在 刷 
写 其 内 容 。 
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一 由于 客户 端 缓冲 区 是 一 个 简单 的 保存 在 客户 端 进程 
内 存 里 的 列表 ， 用 户 需 要 注意 不 能 在 运行 时 终止 程序 。 如 果 
发 生 这 种 情况 ， 那 些 尚未 刷 写 的 数据 就 会 丢失 ! 服务 器 将 无 
法 收 到 数据 ， 因 此 这 些 数据 没有 任何 副本 可 以 用 来 做 数据 恢 
复 。 


另外 请 注意 ， 一 个 更 大 的 缓冲 区 需要 客户 端 和 服务 器 端 
消耗 更 多 的 内 存 ， 因 为 服务 器 问 也 需要 先 将 数据 写 入 到 服务 
器 的 写 缓冲 区 中 ， 然 后 再 处 理 它 。 男 一 方面 ， 一 个 大 的 缓冲 
区 减少 了 RPC 请 求 的 次 数 。 估 算 服 务 器 端 内 存 的 占用 可 使 


用 hbase.client.write.buffer x 








hbase.regionserver.handler.count xregion 服务 器 的 
数量 。 

再 次 提 到 往返 时 间 ， 如 采用 户 只 存储 大 单元 格 ， 客 户 端 
缓冲 区 的 作用 就 不 大 了 ， 因 为 传输 时 间 占 用 了 大 部 分 的 请 求 
时 间 。 在 这 种 情况 下 ， 建 议 最 好 不 要 增加 客户 端 缓冲 区 大 


小 。 


4. Put 列表 


客户 端的 API 可 以 插入 单个 Put 实例 ， 同 时 也 有 批量 处 理 操作 的 高 
级 特性 。 其 调用 形式 如 下 : 


void put(List<Put> puts)throws IOException 


用 户 需 要 建立 一 个 Put 实例 的 列表 。 例 3.4 修 改 了 之 前 的 例子 ， 创 建 
了 一 个 列表 保存 所 有 的 修改 ， 最 后 调用 了 以 列表 为 参数 的 put( ) 方法 。 


例 3.4 使 用 列表 癌 HBase 中 添加 数据 


List< Put> puts = new ArrayList< Put>();@ 


Put put1 = new Put(Bytes.toBytes("row1") ); 

put1.add(Bytes.toBytes("colfami"),Bytes.toBytes("qual1"), 
Bytes.toBytes("val1")); 

puts.add(put1);@ 


Put put2 = new Put(Bytes.toBytes("row2") ); 
put2.add(Bytes.toBytes("colfami"),Bytes.toBytes("qual1"), 
Bytes.toBytes("val2")); 


puts.add(put2);6 


Put put3 = new Put(Bytes.toBytes("row2") ); 

put3.add(Bytes.toBytes("colfami"),Bytes.toBytes("qual2"), 
Bytes.toBytes("val3")); 

puts.add(put3);@ 


table.put(puts);6 





@ 创 建 一 个 列表 用 于 存储 Put 实例 。 

四 将 一 个 Put 实例 添加 到 列表 中 。 

@ 将 另外 一 个 Put 实例 添加 到 列表 中 。 

人 @ 将 第 三 个 Put 实例 添加 到 列表 中 。 

全 向 HBase 中 存 入 多 行 多 列 数据 。 

用 HBase Shell 可 以 快速 查看 存 入 的 数据 是 否 与 预期 一 致 。 请 注意 ， 
例 3.4 实 际 上 修改 了 三 列 ， 不 过 它们 只 属于 两 行 。 有 两 列 内 容 存 入 了 键 


为 row2 的 行 中 ， 这 两 列 使 用 了 两 个 不 同 的 列 名 ，qual1 和 qual2 ， 在 
同一 行 创 建 了 两 个 不 同名 称 的 列 。 








hbase(main):001:0>scan 'testtable' 


ROW COLUMN+CELL 
rowl column=colfam1: qual1, timestamp=1300108258094, value=val1 


row2 column=colfam1: qual1, timestamp=1300108258094, value=val2 
row2 column=colfam1: qual2, timestamp=1300108258098, value=val3 
2 row(s)in 0.1590 seconds 





由 于 用 户 提 交 的 修改 行 数据 的 列表 可 能 涉及 多 行 ， 所 以 有 可 能 会 有 
部 分 修改 失败 。 造 成 修改 失败 的 原因 有 很 多 ， 例 如 ， 一 个 远程 的 region 
服务 器 出 现 了 问题 ， 导 致 客户 端的 重 试 次 数 超过 了 配置 的 最 大 值 ， 因 此 
不 得 不 放弃 当前 操作 。 如 果 远 程 服 务 器 的 put 调用 出 现 问题 ， 错 误会 通 
过 随后 的 一 个 IOException 异常 反馈 给 客户 端 。 

例 3.5 使 用 了 一 个 错误 的 〈bogus) 列 族 名 来 插入 列 。 由 于 客户 端 不 
知道 远程 表 的 结构 (可 能 在 本 次 操作 之 前 ， 实 际 的 表 结 构 已 经 有 所 变 
化 ) ， 因 此 对 列 族 的 检查 会 在 服务 器 端 完成 。 


例 3.5” 问 HBase 中 插入 一 个 错误 的 列 族 








Put put1 = new Put(Bytes.toBytes("row1")); 

put1.add(Bytes.toBytes("colfami"),Bytes.toBytes("qual1"), 
Bytes.toBytes("val1")); 

puts.add(put1); 

Put put2 = new Put(Bytes.toBytes("row2") ); 

put2.add(Bytes.toBytes("BOGUS" ) 


,» Bytes. toBytes("qual1"), 
Bytes.toBytes("val2"));@ 
puts.add(put2); 
Put put3 = new Put(Bytes.toBytes("row2") ); 
put3.add(Bytes.toBytes("colfami"),Bytes.toBytes("qual2"), 
Bytes.toBytes("val3")); 
puts.add(put3); 


table.put(puts);@ 





@ 将 使 用 不 存在 列 族 的 Put 实例 加 入 列表 。 
四 将 多 行 多 列 数据 存储 到 HBase 中 。 


音 误 列 族 的 put() 调用 失败 ， 会 返回 如 下 的 《或 类 似 的 ) 
错误 信息 ; 


org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: 
Failed 1 action: NoSuchColumnFamilyException: 1 time, 
servers with issues: 10.0.0.57:51640, 





用 户 可 能 想 知 道 列 表 中 没有 发 生 异 常 的 put 的 情况 如 何 。 再 次 使 用 
命令 行 工具 ， 应 该 可 以 看 见 两 个 正确 的 put 的 数据 已 经 被 添加 到 HBase 








hbase(main):001:@>scan 'testtable' 


ROW COLUMN+CELL 


rowl column=colfam1:qual1, timestamp=1300108925848, value=val 
1 


row2 column=colfam1: qual2,timestamp=1300108925848, value=val 
3 


2 row(s) in 0.0640 seconds 





服务 器 壳 历 所 有 的 操作 并 设法 执行 它们 ， 失 败 的 会 返回 ， 然后 客户 
端 会 使 用 RetriesExhaustedWithDetai1lsException 报告 远程 错误 ， 





这 样 用 户 可 以 查询 有 多 少 个 操作 失败 、 出 错 的 原因 以 及 重 试 的 次 数 。 
注意 的 是 ， 对 于 错误 列 族 ， 服 务 器 端 的 重 试 次 数 会 日 动 设 为 1 IL 
NoSuchColumnFamilyException: 1 time) ， 因 为 这 是 一 个 不 可 恢 
复 的 错误 类 型 。 


这 些 在 服务 器 上 失败 的 Put 实例 会 被 保存 在 本 地 写 绥 冲 区 中 ， 下 一 
次 缓冲 区 刷 写 的 时 候 会 重 试 。 用 户 也 可 以 通过 HTable 的 
9 它们 ， 并 对 它们 做 一 些 处 理 ， 例 如 ， 清 除 
深 作 。 


有 一 些 检查 是 在 客户 端 完成 的 ， 例 如 ， 确 认 Put 实例 的 内 容 是 人 否 状 
TBE A 指定 了 列 。 在 这 种 情况 下 ， 客 户 端 会 抛 出 异常 ， 同 时 将 出 错 的 
Put 留 在 客户 端 缓冲 区 中 不 做 人 处理 。 
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=> 调用 基于 列表 的 put() 时 ， 客 户 端 会 先 把 所 有 的 
Put 实例 插入 到 本 地 写 缓冲 区 中 ， 然 后 隐 式 地 调 
用 flushCcache() 。 在 插入 每 个 Put 实例 的 时 候 ， 客 户 端 API 
都 会 执行 之 前 提 到 过 的 检查 。 如 果 检 查 失 败 ， 例 如 ，5 个 Put 
中 的 第 3 个 失败 了 ， 则 前 两 个 会 被 添加 到 缓冲 区 中 ， 最 后 两 个 
则 不 会 ， 同 时 也 不 会 触发 刷 写 命令 。 





用 户 可 以 捕获 异常 并 手动 刷 写 写 缓冲 区 来 执行 已 经 添加 的 操作 。 例 
3.6 展 示 了 如 何 处 理 这 个 异常 。 





例 3.6 ” 癌 HBase 中 插入 一 个 空 的 Put 实例 





Put put1 = new Put(Bytes.toBytes("row1")); 

put1.add(Bytes.toBytes("colfami"),Bytes.toBytes("qual1"), 
Bytes.toBytes("val1")); 

puts.add(put1); 

Put put2 = new Put(Bytes.toBytes("row2") ); 

put2.add(Bytes.toBytes("BOGUS") , Bytes. toBytes("quali"), 


Bytes.toBytes("val2")); 
puts.add(put2); 
Put put3 = new Put(Bytes.toBytes("row2") ); 
put3.add(Bytes.toBytes("colfami"),Bytes.toBytes("qual2"), 
Bytes.toBytes("val3")); 
puts.add(put3); 
Put put4 = new Put(Bytes.toBytes("row2") ); 


puts.add(put4) ; 


try { 


table.put(puts); 
}  catch(Exception e){ 


System.err.printlin("Error: " + e); 


table.flushCommits();@ 





OA A AK Put 添加 到 列表 中 。 


多 捕获 本 地 异常 然后 提交 更 新 。 
XPS St Toei, see SUP: 








Error: java.lang.IllegalArgumentException: No columns to insert 
Exception in thread "main" 
org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: 
Failed 1 action: NoSuchColumnFamilyException: 1 time, 


servers with issues: 10.0.0.57:51640, 








第 一 个 错误 (Error) 是 客户 端 检查 发 现 的 ， 第 二 个 错误 是 
fEtry/catch 代码 块 中 调用 下 面 的 函数 引起 的 远程 异常 : 





table.flushCommits() 





-S 

| 如 果 用 户 激活 了 客户 端 写 缓冲 区 功能 〈 请 参考 32.1 
节 中 < 客户 端的 写 缓冲 区 ") 就 会 发 现 没有 马上 报告 异常 ， 而 
是 延迟 到 了 缓冲 区 刷 写 的 时 候 才 抛 出 。 





当 使 用 基于 列表 的 put 调用 时 ， 用 户 需 要 特别 注意 : 用 户 无 法 控制 
服务 器 端 执行 put 的 顺序 ， 这 意味 着 服务 器 被 调用 的 顺序 也 不 受用 户 控 
制 。 如 果 要 保证 写 入 的 顺序 ， 需 要 小 心地 使 用 这 个 操作 ， 最 坏 的 情况 
和 是， 要 减少 每 一 批量 处 理 的 操作 数 ， 并 显示 地 刷 写 客户 器 写 缓冲 区 ， 强 
制 把 操作 发 送 到 远程 服务 器 。 


5. 原子 性 操作 compare-and-set 


有 一 种 特别 的 put 调用 ， 其 能 保证 目 身 操作 的 原子 性 : 检查 写 





(check and put) 。 该 方法 的 签名 如 下 : 


boolean checkAndPut(byte[] row,byte[] family,byte[] qualifier, 
byte[] value,Put put) throws IOException 





有 了 这 种 带 有 检查 功能 的 方法 ， 惑 能 保证 服务 器 端 put 操作 的 原子 
性 。 如 果 检 查 成 功 通过 ， 就 执行 put 操作 ， 否 则 就 彻底 放弃 修改 操作 。 
这 种 方法 可 以 用 于 需要 检查 现 有 相关 值 ， 并 决定 是 否 修 改 数据 的 操作 。 

这 种 有 原子 性 保证 的 操作 经 常 被 用 于 账户 结余 、 状 态 转 换 或 数据 处 
理 等 场景 。 这 些 应 用 场景 的 共同 点 是 ， 在 读 取 数据 的 同时 需要 处 理 数 
据 。 一 旦 你 想 把 一 个 处 理 好 的 结果 写 回 HBase， 并 保证 没有 其 他 客户 站 
己 经 做 了 同样 的 事情 ， 你 束 可 以 使 用 这 个 有 原子 性 保证 的 操作 ， 先 比较 
原 值 ， 再 做 修改 。 


一 一 人 有 一 种 特别 的 检查 通过 checkAndPut( ) 调用 来 完 
成 ， 即 只 有 在 另外 一 个 值 不 存在 的 情况 下 ， 才 执行 这 个 修 
改 。 要 执行 这 种 操作 只 需要 将 参数 value 设置 为 null 即 可 ， 
只 要 指定 列 不 存在 ， 就 可 以 成 功 执行 修改 操作 。 


























这 个 方法 返回 一 个 布尔 类 型 的 值 ， 表 示 put 操作 成 功 执行 还 是 失 
败 ， 对 应 的 值 分 别 是 true 和 false 。 例 3.7 展 示 了 客户 端 与 服务 器 端 不 
同 操作 返回 值 的 交互 过 程 。 


例 3.7 使 用 原子 性 操作 compare-and-set 





Put put1 = new Put(Bytes.toBytes("row1")); 
put1.add(Bytes.toBytes("colfami"),Bytes.toBytes("qual1"), 
Bytes.toBytes("val1"));@ 


boolean resi = table.checkAndPut(Bytes.toBytes("row1"), 
Bytes.toBytes("colfami") ,Bytes.toBytes("qual1"),null,put1);@ 
System.out.println("Put applied: " + res1);© 


boolean res2 = table.checkAndPut(Bytes.toBytes("row1"), 
Bytes.toBytes("colfami") ,Bytes.toBytes("qual1"),null,put1);@ 
System.out.printin("Put applied: " + res2);@ 


Put put2 = new Put(Bytes.toBytes("row1") ); 
put2.add(Bytes.toBytes("colfami"),Bytes.toBytes("qual2"), 
Bytes. toBytes("val2"));@ 


boolean res3 = table.checkAndPut(Bytes.toBytes("row1"), 
Bytes.toBytes("colfam1") ,Bytes.toBytes("qual1"),@ 
Bytes.toBytes("val1"),put2) ; 
System.out.printin("Put applied: " + res3);® 


Put put3 = new Put(Bytes.toBytes("row2") ); 
put3.add(Bytes.toBytes("colfami"),Bytes.toBytes("qual1"), 
Bytes.toBytes("val3"));© 


boolean res4 = table.checkAndPut(Bytes.toBytes("row1"), 

Bytes.toBytes("colfam1") , Bytes.toBytes("qual1"),@ 
Bytes.toBytes("val1"), put3); 

System.out.println("Put applied: " + res4);@ 





创建 一 个 新 的 Put 实例 。 








四 检查 指定 列 是 否 存在 ， 按 检查 的 结果 决定 是 否 执行 put 操 作 。 
加 输出 结果 ， 此 处 应 为 : “Put applied: true”. 

@@ 再 次 向 同一 个 单元 格 写 入 数据 。 

加 因为 那个 列 的 值 已 经 存在 ， 此 时 的 输出 结果 应 为 "Put applied: 


false”. 
@ 创 建 男 一 个 新 的 Put 实例 ， 这 次 使 用 一 个 不 同 的 列 限定 符 。 
人 @ 当 上 一 次 的 put 值 存在 时 ， 写 入 新 的 值 。 





全 因为 已 经 存在 ， 所 以 输出 的 结果 应 当 为 “Put applied: true”. 
@ 再 创建 一 个 Put 实例 ， 这 回 使 用 一 个 不 同 的 行 键 。 

人 Q 检 查 一 个 不 同行 的 值 是 否 相 等 ， 然 后 写 入 男 一 
@@ 程 序 执行 不 到 这 里 ， 因 为 在 人 @ 处 会 扫 出 异常 。 
例子 中 最 后 一 次 调用 会 抛 出 以 下 卉 常 : 


行 。 


Exception in thread "main" org.apache.hadoop.hbase.DoNotRetryIOException: 
Action's getRow must match the passed row 








HBase 提 供 的 compare-and-set 操 作 ， 只 能 检查 和 修改 
同一 行 数据 。 与 其 他 的 许多 操作 一 样 ， 这 个 操作 只 提供 同一 
行 数据 的 原子 性 保证 。 检 查 和 修改 分 别针 对 不 同行 数据 时 会 
抛 出 异常 。 











compare-and-set (CAS) 操作 十 分 强大 ， 尤 其 是 在 分 布 式 系统 中 ， 
且 有 多 个 独立 的 客户 端 同时 操作 数据 时 。 通 过 这 个 方法 ，HBase 与 其 他 
R be tk LEA AP dim A ASE AERIS 
功能 。 


3.2.2 get 方法 
下 面 我 们 将 介绍 从 客户 端 API 中 获取 已 存储 数据 的 方法 。HTable 类 


中 提供 了 get() 方法 ， 同 时 还 有 与 之 对 应 的 Get 类 。get 方 法 分 为 两 类 : 
一 类 是 一 次 获取 一 行 数据 ， 另 一 类 是 一 次 获取 多 行 数据。 





1. 单行 get 
这 种 方法 可 以 从 HBase 表 中 取 一 个 特定 的 值 : 


Result get(Get get) throws IOException 








与 put() 方法 有 对 应 的 Put 类 相似 ，get() 方法 也 有 对 应 的 Get 
类 ， 此 外 还 有 一 个 相似 之 处 ， 那 束 是 在 使 用 下 面 的 方法 构造 Get 实例 
时 ， 也 需要 设置 行 键 





Get(byte[] row) 
Get(byte[] row,RowLock rowLock) 
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«et I 
一 虽然 一 次 get() 操作 只 能 取 一 行 数据 ， 但 不 会 限制 
一 行当 中 取 多 少 列 或 者 多 少 单元 格 。 





这 两 个 Get 实例 都 通过 row 参数 指定 了 要 获取 的 行 ， 其 中 第 二 
个 Get 实例 还 增加 了 一 个 可 选 的 rowLock 参数 ， 人 允许 用 户 设置 行 锁 。 
与 put 操作 一 样 ， 用 户 有 许多 方法 可 用 ， 可 以 通过 多 种 标准 筛选 目标 数 
据 ， 也 可 以 指定 精确 的 坐标 获取 菜 个 单元 格 的 数据 : 





Get addFamily(byte[] family) 

Get addColumn(byte[] family,byte[] qualifier) 

Get setTimeRange(long minStamp,long maxStamp) throws IOException 
Get setTimeStamp(long timestamp) 

Get setMaxVersions() 

Get setMaxVersions(int maxVersions) throws IOException 


pT 


addFamily() 方法 限制 get 请 求 只 能 取得 一 个 指定 的 列 族 ， 要 取得 
多 个 列 族 时 需要 多 次 调用 。addColumn() 的 使 用 方式 与 之 类 似 ， 用 户 
通过 它 可 以 指定 get 取 得 哪 一 列 的 数据 ， 从 而 进一步 缩小 地 址 空间 。 有 
一 些 方法 允许 用 户 设 定 要 获取 的 数据 的 时 间 戳 ， 或 通过 设 定 一 个 时 间 段 
来 取得 时 间 惟 属于 该 时 间 段 内 的 数据 。 


最 后 ， 如 果 用 户 没 有 设 定 时 间 惟 的话， 也 有 方法 允许 用 户 设 定 要 获 
取 的 数据 的 版 本 数目 。 默 认 情 况 下 ， 版 本 数 为 1， 即 get() 请 求 返回 最 
新 的 匹配 版 本 。 如 果 有 疑问 ， 可 以 使 用 getMaxVersions() 来 检查 这 
个 Get 实例 所 要 取出 的 最 大 版 本 数 。 不 带 参数 的 setMaxVersions() 方 
法 会 把 要 取出 的 最 大 版 本 数 设 为 Integer .MAX_VALUE ， 这 是 用 户 在 列 
族 描述 符 (column family descriptor〉 中 可 配置 的 最 大 版 本 数 ， 此 时 系 
统 会 返回 这 个 单元 格 中 所 有 的 版 本 ， 换 句 话 说， 此 时 系统 会 返回 用 户 在 
列 族 中 已 配置 的 最 大 版 本 数 以 内 的 所 有 数据 。 


表 3-4 列 出 了 Get 类 中 其 他 方法 的 介绍 。 
表 3-4 Get 类 提供 的 其 他 方法 概览 





























回 创建 Get 实例 时 指定 的 行 键 
回 当前 Get 实例 的 RowLock 实例 
返回 创建 时 指定 rowLock 的 锁 ID， 如 果 没 有 指定 则 
返回 | 

Far 





-1L 

















返回 指定 的 Get 实例 的 时 间 戳 范围 。 注 意 ，Get 类 





E 中 已 经 没有 getTimestamp() 方法 了 ， 因 为 API 会 在 
内 部 将 setTimestamp() 赋 的 值 转换 成 TimeRange 实 
例 ， 设 定 给 定时 间 戳 的 最 大 值 和 最 小 值 














用 户 可 以 使 用 一 个 特定 的 过 滤器 实例 ， 通 过 多 种 
人 规则 和 条 件 来 筛选 列 和 单元 格 。 使 用 这 些 方法 ， 

用 户 可 以 设 定 或 查看 Get 实例 的 过 滤器 成 员 ， 详 
情 参 见 4.1 节 


每 个 HBase 的 region 服 务 器 都 有 一 个 块 缓存 来 有 效 
地 保存 最 近 存 取 过 的 数据 ， 并 以 此 来 加 速 之 后 的 
相 邻 信息 的 读 取 。 不 过 在 某 些 情况 下 ， 例 如 完全 
setCacheBlocks()/getCacheBlocks() | 随机 读 取 时 ， 最 好 能 避免 这 种 机 制 带 来 的 扰动 。 

这 些 方法 能 够 控制 当 次 读 取 的 块 缓存 机 制 是 否 启 





























numFamilies() 快捷 地 获取 列 族 FamilyMap 大 小 的 方法 ， 包 括 
用 addFamily() 方法 和 addcolumn() 方法 添加 的 列 族 


hasFamilies() 检查 列 族 或 列 是 否 存在 于 当前 的 Get 实例 中 








这 些 方法 能 够 让 用 户 直接 访问 addFamily() 和 
addcolumn() 添加 的 列 族 和 列 。FamilyMap 列 族 中 键 

fanilyset()/getFamilyMap() 是 列 族 的 名 称 ， 键 对 应 的 值 是 指定 列 族 的 限定 符 
列表 。familyset() 方法 返回 一 个 所 有 已 存储 列 族 
的 set ， 即 一 个 只 包含 列 族 名 的 集合 
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— 8 表 3-4 中 所 列 的 getter 函 数 只 能 得 到 所 属 的 Get 实例 
中 用 户 预 先 设 定好 的 筛选 条 件 。 它 们 的 应 用 场景 很 少 ， 而 且 
只 能 在 类 似 如 下 的 场景 中 使 用 ， 例 如 ， 用 户 的 一 个 私有 方法 
中 有 一 个 Get 实例 ， 需 要 在 其 他 地 方 检查 Get 实例 中 各 筛选 
条 件 是 否 正 确 。 


以 前 提 到 过 ，HBase 为 用 户 提供 了 Bytes 这 个 工具 类 ， 该 类 有 许多 
可 以 把 Java 的 常用 数据 类 型 转化 为 byte[ ] 数组 的 静态 方法 。 同 时 ， 它 
也 可 以 做 一 些 反 回转 化 的 工作 : 例如 当 用 户 从 HBase 中 取得 一 行 数 据 
时 ， 可 使 用 Bytes 对 应 的 方法 把 byte[ ] 的 内 容 转化 为 Java 的 数据 类 型 。 
下 面 是 它 提 供 的 相关 方法 的 列表 : 





static String toString(byte[] b) 
static boolean toBoolean(byte[] b) 
static long toLong(byte[] bytes) 
static float toFloat(byte[] bytes) 
static int toInt(byte[] bytes) 





例 3.8 展 示 了 从 HBase 中 获取 数据 的 完整 过 程 。 
例 3.8 从 HBase 中 获取 数据 的 应 用 


Configuration conf = HBaseConfiguration.create();@ 

HTable table = new HTable(conf,"testtable");@ 

Get get = new Get(Bytes.toBytes("row1"));6 
get.addColumn(Bytes.toBytes("colfam1i") ,Bytes.toBytes("qual1"));@ 
Result result = table.get(get);e 


byte[] val = result.getValue(Bytes.toBytes("colfam1"), 
Bytes.toBytes("qual1")) 5; 
System.out.println("Value: " + Bytes.toString(val));o0 





@@ 创 建 配置 实例 。 

男 初 始 化 一 个 新 的 表 引 用 。 

全 使 用 一 个 指定 的 行 键 构建 一 个 Get 实例 。 
OlrGet 实例 中 添加 一 个 列 。 

加 从 HBase 中 获取 指定 列 的 行 数据 。 

@ 从 返回 的 结果 中 获取 对 应 列 的 数据 。 

@ 将 数据 转化 为 字符 串 打印 输出 。 


如 果 用 户 在 执行 这 个 例子 之 前 执行 过 前 面 的 例子 ， 如 例 3.2， 那 么 
会 有 如 下 的 输出 结果 : 


Value: vall 


虽然 上 面 的 这 个 输出 结果 很 普通 ， 但 却 展 示 了 一 次 完整 的 读 取 数据 
的 过 程 。 这 个 例子 只 添加 并 取 回 了 一 个 特定 的 列 ， 取 回 的 版 本 数 为 默认 
值 1。get() 方法 调用 后 返回 一 个 Result 类 的 实例 ， 这 个 类 将 在 下 面 介 


绍 。 
2. Result 类 


当 用 户 使 用 get() 方法 获取 数据 时 ，HBase 返 回 的 结果 包含 所 有 匹 
配 的 单元 格 数据 ， 这 些 数据 将 被 封装 在 一 个 Result 实例 中 返回 给 用 
尸 。 用 它 提供 的 方法 ， 可 以 从 服务 器 端 获取 匹配 指定 行 的 特定 返回 值 ， 
这 些 值 包括 列 族 、 列 限定 符 和 时 间 戳 等 。 


以 下 是 一 些 获 取 特 定 返回 值 的 工具 方法 ， 和 前 面 使 用 的 例 3.8 一 
样 ， 可 以 设 定 一 些 具 体 的 碍 询 维度 。 如 果 用 户 之 前 要 求 服 务 器 端 返 回 一 
个 列 族 下 的 所 有 列 ， 现 在 就 可 以 从 返回 值 中 取得 这 个 列 族 下 所 需 的 任意 
列 。 换 句 话 说 ， 用 户 使 用 get() 方法 时 需要 提供 一 些 具 体 的 信息 ， 以 便 
数据 取 回 之 后 客户 端 可 以 筛选 出 对 应 的 数据 。Result 类 提供 的 方法 如 
下 : 


byte[] getValue(byte[] family,byte[] qualifier) 
byte[] value() 

byte[] getRow() 

int size() 

boolean isEmpty() 


KeyValue[] raw() 
List<KeyValue> list() 











getValue() 方法 允许 用 户 取 得 一 个 HBase 中 存储 的 特定 单元 格 的 
值 。 因 为 该 方法 不 能 指定 时 间 戳 《或 者 说 版 本 ) ， 所 以 用 户 只 能 获得 数 
据 最 新 的 版 本 。value() 方法 的 使 用 更 简单 ， 它 会 返回 第 一 个 列 对 应 的 
最 新 单元 格 的 值 。 因 为 列 在 服务 器 问 是 按 字 典 序 存 储 的 ， 所 以 会 返回 名 
BR CELT TRAIT BR ETT) 排 在 首位 的 那 一 列 的 值 。 


之 前 我 们 介绍 过 getRow() 方法 : 它 返回 创建 Get 类 当前 实例 时 使 
用 的 行 键 。size() 方法 返回 服务 器 端 返回 值 中 键 值 对 〈KeyValue 实 
例 ) 的 数目 。 用 户 可 以 使 用 size() 方法 或 者 isEmpty( ) 方法 查看 键 值 
目 是 否 大 于 0， 这 样 可 以 检查 服务 器 端 是 否 找到 了 与 查询 相对 应 


raw() 方法 返回 原始 的 底层 KeyValue 的 数据 结构 ， 有 具体 来 说 ， 是 











基于 当前 的 Result 实例 返回 KeyValue 实例 的 数组 。1ist() 调用 则 把 
raw() 中 返回 的 数组 转化 为 一 个 List 实例 ， 并 返回 给 用 户 ， 创 建 的 
List 实例 由 原始 返回 结果 中 的 KeyValue 数组 成 员 组 成 ， 用 户 可 以 方便 
地 迭代 存 取 数据 。 


| we 4. 

一 一 paw( ) 方法 返回 的 数组 已 经 按 字典 序 排列 ， 排 列 时 
考虑 了 KeyValue 实例 的 所 有 坐标 。 先 按 列 族 排 序 ， 列 族 内 再 
按 列 限 定 符 排序 ， 此 后 再 按时 间 戳 排序， 最 后 按 类 型 排序 。 











另外 还 有 一 些 面 癌 列 的 存 取 函 数 如 下 : 


List<KeyValue> getColumn(byte[] family,byte[] qualifier) 
KeyValue getColumnLatest(byte[] family,byte[] qualifier) 


boolean containsColumn(byte[] family,byte[] qualifier) 





这 个 方法 返回 一 个 特定 列 的 多 个 值 ， 解 答 了 前 文 提 出 的 一 个 问题 : 
如 何 获 得 一 个 列 的 多 个 版 本 。 返 回 值 中 的 版 本 数 取 决 于 用 户 调用 get() 
方法 之 前 ， 创 建 Get 实例 时 设置 的 最 大 版 本 数 ， 默 认 是 1。 换 句 话 
说 ，getColumn() 返回 的 列表 中 包括 0《〈 当 本 行 没 有 该 列 值 时 ) 或 1 个 
条 目 ， 这 一 条 目 是 该 列 最 新 版 本 的 值 。 如 果 用 户 指定 了 一 个 比 默 认 值 1 
oo 《可 以 是 最 大 值 范围 内 的 任意 值 ) ， 返 回 的 列表 中 就 可 能 会 
上 条 目 。 


getColumnLatest() 方法 返回 对 应 列 的 最 新 版 本 值 ， 不 过 
与 getValue() 不 同 ， 它 不 返回 值 的 原始 字 节 数组 ， 而 是 返回 一 
个 KeyValue 实例 。 如 果 用 户 需 要 的 不 仅仅 是 数据 ， 那 么 这 个 方法 将 会 
非常 有 用 。containsColumn() 是 一 个 十 分 简便 的 方法 ， 它 检查 返回 值 
中 是 否 有 对 应 的 列 。 
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一 一 ”这 些 方法 也 可 以 不 指定 列 限定 符 ， 即 将 列 限 定 符 设 
置 为 nul1 ， 这 样 方法 会 匹配 没有 列 限定 符 的 特殊 列 。 











不 使 用 限定 符 就 意味 着 这 一 列 没有 标签 。 当 但 询 表 时 ， 
例如 ， 用 户 通过 命令 行 查 询 时 ， 需 要 目 己 明白 数据 所 表示 的 
具体 合 义 。 可 能 只 有 一 种 情况 能 用 到 空 限 定 符 : 即 一 个 列 族 
下 只 有 一 列 ， 同 时 列 族 名 就 能 够 表示 数据 的 合 义 及 目的 。 


下 面 是 第 三 类 取 值 函数 ， 以 映射 形式 返回 结果 : 


NavigableMap< byte[],NavigableMap< byte[], 
NavigableMap< Long,byte[]>>> getMap() 
NavigableMap< byte[], 
NavigableMap< byte[],byte[]>> getNoVersionMap() 


NavigableMap< byte[],byte[]> getFamilyMap(byte[] family) 








最 常用 的 方法 是 getMap() ， 它 把 所 有 get() 请 求 返回 的 内 容 都 装 
入 一 个 Java 的 Map 类 实例 中 ， 这 样 用 户 可 以 使 用 该 方法 遍历 所 有 结 
果 。getNoVersionMap() 与 getMap() 形式 上 相似 ， 不 过 它 只 返回 每 
个 列 的 最 新 版 本 。getFamilyMap() 允许 用 户 指定 一 个 特定 的 列 族 ， 返 
回 这 次 结果 中 这 个 列 族 下 的 所 有 版 本 。 


不 论 用 户 使 用 什么 方法 获取 Result 中 的 数据 ， 都 不 会 产生 额外 的 
性 能 和 资源 消耗 ， 因 为 这 些 数据 都 已 经 通过 网 络 从 服务 器 端 传输 到 了 客 
户 端 。 








转 储 内 容 


所 有 的 Java 对 象 都 有 toSstring() 方法 ， 这 个 方法 通常 
会 被 重 载 ， 用 于 将 实例 数据 转化 为 文本 表示 。 这 样 做 一 般 
不 是 为 了 序列 化 对 象 ， 而 是 为 了 方便 调试 程序 。 





同样 Result 类 也 有 tostring() 方法 的 实现 ， 它 把 实 
例 的 内 容 转 储 为 一 个 可 读 的 字符 串 ， 下 面 是 输出 的 例子 : 


keyvalues={row-2/colfam1:col-5/1300802024293/Put/vlen=7, 
row-2/colfam2:col-33/1300802024325/Put/vlen=8} 





这 个 方法 只 是 简单 地 打印 实例 所 包含 的 KeyValue 实 
例 ， 也 就 是 逐个 调用 KeyValue. toString() 方法 。 如 果 
Result 的 实例 为 空 ， 则 返回 结果 如 下 : 


keyvalues=NONE 








这 种 情况 表示 查询 没有 KeyValue 实例 返回 。 本 书 的 代 


码 示例 使 用 tostring() 方法 来 打印 之 前 读 取 操作 的 结 
果 。 


3. Get 列表 

使 用 列表 参数 的 get() 方法 与 使 用 列表 参数 的 put( ) 方法 对 应 ， 用 
户 可 以 用 一 次 请 求 获取 多 行 数 据 。 它 允许 用 户 快速 高 效 地 从 远程 服务 器 
获取 相关 的 或 完全 随机 的 多 行 数据 。 


Al 
ce | a 
一 人 如 图 3-1 所 示 ， 实 际 上 ， 请 求 有 可 能 被 发 往 多 个 不 同 
的 服务 器 ， 但 这 部 分 逻辑 已 经 被 封装 起 来 ， 因 此 对 于 客户 端 


代码 来 说 ， 还 是 表现 为 一 次 请 求 。 











API 提 供 的 方法 签名 如 下 : 


Result[] get(List< Get> gets) throws IOException 


这 个 方法 的 含义 十 分 直 白 ， 跟 之 前 介绍 的 类 似 方 法 一 样 ， 用 户 需 要 
创建 一 个 列表 ， 并 把 之 前 准备 好 的 Get 实例 添加 到 其 中 。 然 后 将 这 个 列 
表 传 给 get() ， 会 返回 一 个 与 列表 大 小 相等 的 Result 数组 。 例 3.9 展 示 
了 用 两 种 方法 获取 数据 的 整个 流程 。 


例 3.9 ”使 用 Get 实例 的 列表 从 HBase 中 获取 数据 





byte[] cf1 = Bytes.toBytes("colfam1") ; 
byte[] qf1 = Bytes.toBytes("qual1") ; 


byte[] qf2 = Bytes.toBytes("qual2");@ 
byte[] row1 = Bytes.toBytes("row1") ; 
byte[] row2 = Bytes.toBytes("row2") ; 


List< Get> gets = new ArrayList< Get>();@ 


Get get1 = new Get(row1); 
get1.addColumn(cf1, qf1) ; 
gets.add(get1) ; 


Get get2 = new Get(row2); 
get2.addColumn(cf1,qf1);6 
gets.add(get2) ; 


Get get3 = new Get(row2); 
get3.addColumn(cf1, qf2) ; 
gets.add(get3) ; 


Result[] results = table.get(gets);@ 


System.out.println( "First iteration..."); 
for(Result result : results){ 
String row = Bytes.toString(result.getRow()); 
System.out.print("Row: " + row + " "); 
byte[] val = null; 
if(result.containsColumn(cf1,qf1)){ © 
val = result.getValue(cf1,qf1); 
System.out.println( "Value: " + Bytes.toString(val)); 
} 
if(result.containsColumn(cf1,qf2)){ 
val = result.getValue(cf1,qf2); 
System.out.println("Value: " + Bytes.toString(val)); 
} 
} 


System.out.println("Second iteration..." ); 
for(Result result : results){ 
for(KeyValue kv : result.raw()){ 
System.out.println("Row: ”+ Bytes.toString(kv.getRow())+ © 
" Value: " + Bytes.toString(kv.getValue())); 





@@ 人 准备 好 共用 的 字 市 数组 。 


办 准备 好 要 存放 Get 实例 的 列表 。 

全 将 Get 实例 添加 到 列表 中 。 

全 从 HBase 中 获取 这 些 行 和 选 定 的 列 。 

人 @ 授 历 结 果 并 检查 哪些 行 中 包含 选 定 的 列 。 

@ 再 次 过 历 ， 打 印 所 有 结果 。 

如 采 移 运行 例 3.4， 然 后 再 运行 例 3.9， 可 能 会 看 到 如 下 结果 : 


First iteration... 
Row: rowl Value: vali 
Row: row2 Value: val2 
Row: row2 Value: val3 
Second iteration... 


Row: row1 Value: vall 
Row: row2 Value: val2 
Row: row2 Value: val3 
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以 有 多 种 方式 访问 结果 。 现 在 就 差 查询 时 出 现 的 异常 如 何 反馈 没有 介绍 
了 。get() 返回 异常 的 方法 与 3.2.1 节 中 的 “Put 列 表 ” 不 同 。get() 方法 
要 么 返回 与 给 定 列 表 大 小 一 致 的 Result 数组 ， 要 么 抛 出 一 个 异常 。 例 
3.10 展 示 了 这 个 行为 。 








例 3.10 ”尝试 读 取 一 个 错误 的 列 族 





List< Get> gets = new ArrayList< Get>(); 


Get get1 = new Get(row1); 
get1.addColumn(cf1, qf1) ; 
gets.add(get1) ; 


Get get2 = new Get(row2); 
get2.addColumn(cf1,qf1);@ 
gets.add(get2) ; 


Get get3 = new Get(row2) ; 
get3.addColumn(cf1, qf2); 
gets.add(get3); 


Get get4 = new Get(row2); 
get4.addColumn(Bytes.toBytes("BOGUS" ) 


»qF2); 
gets.add(get4) 5 


Result[] results = table.get(gets);e 
System.out.println("Result count: " + results.length);@ 





Okicet 实例 添加 到 列表 中 。 
多 添加 包含 有 错 的 〈bogus) 列 族 的 Get 。 
Opies, REFE. 
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执行 这 个 例子 会 导致 整个 get() 操作 终止 ， 程 序 会 抛 出 类 似 下 面 这 
样 的 异常 ， 并 且 没 有 返回 值 : 


org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: 
Failed 1 action: NoSuchColumnFamilyException: 1 time, 
servers with issues: 10.0.0.57:51640, 





对 于 批量 操作 中 的 局 部 错误 ， 有 一 种 更 为 精细 的 处 理 方法 ， 即 使 
用 batch() 方法 ， 这 部 分 内 容 将 在 3.3 节 详细 介绍 。 


4. 获取 数据 的 相关 方法 
还 有 一 些 方法 可 以 用 来 获取 或 检查 存储 的 数据 ， 第 一 个 是 : 





boolean exists(Get get)throws IOException 


可 以 和 使 用 HTable 的 get() 方法 一 样 ， 先 创建 一 个 Get 类 的 实 
fil, exists() 方法 通过 RPC 验 证 请 求 的 数据 是 否 存在 ， 但 不 会 从 远程 
服务 器 返回 请 求 的 数据 ， 只 返回 一 个 布尔 值 表 示 这 个 结果 。 








—— exists() 方法 会 引发 region 服 务 器 端 查询 数据 的 操 
作 ， 包 括 加 载 文件 块 来 检查 某 行 或 某 列 是 否 存在 。 用 户 通过 
这 种 方法 只 能 避免 网 络 数据 传输 的 开销 ， 不 过 在 需要 检查 或 
频繁 检查 一 个 比较 大 的 列 时 ， 这 种 方法 还 是 十 分 实用 的 。 











东 些 情况 下 ， 用 户 在 检索 数据 时 可 能 需要 碍 找 一 个 特定 的 行 ， 或 者 
菏 个 请 求 行 之 前 的 一 行 。 下 面 的 方法 可 以 帮助 用 户 实现 这 种 奋 找 : 


Result getRowOrBefore(byte[] row,byte[] family) throws IOException 


用 户 需 要 指定 要 奉 找 的 行 键 和 列 族 。 指 定 后 者 的 原因 是 ，HBase 是 
一 个 列 式 存储 的 数据 库 ， 不 存在 没有 列 的 行 数 据 。 设 定 列 族 之 后 ， 服 务 
融 端 会 检查 要 奉 找 的 那 一 行 里 是 否 有 任何 属于 指定 列 族 的 列 值 。 




















| 请 注意 ， 在 使 用 getRowOrBefore() 方法 时 ， 需 要 


指定 一 个 已 经 存在 的 列 族 ， 人 否则 服务 端 会 因为 要 访问 一 个 不 
存在 的 存储 文件 而 抛 出 一 个 Java 的 NullPointerException 
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可 以 从 getRowOrBefore() 返回 的 Result 实例 中 得 到 要 查找 的 行 
键 。 这 个 行 键 要 么 与 用 户 设 定 的 行 一 致 ， 要 么 刚好 是 设 定 行 键 之 前 的 一 
行 。 如 果 没 有 匹配 的 结果 ， 本 方法 返回 nul1 。 例 3.11 使 
用 getRowOrBefore( ) 方法 查找 用 户 之 前 使 用 put 示例 存 入 的 数据 。 


例 3.11 使 用 特殊 检索 方法 





Result result1 = table.getRowOrBefore(Bytes.toBytes("row1"),@ 
Bytes.toBytes("colfam1")) ; 
System.out.println("Found: " + Bytes.toString(result1.getRow()));@ 


Result result2 = table.getRowOrBefore(Bytes.toBytes("row99"),e 
Bytes.toBytes("colfam1")) ; 
System.out.println( "Found: " + Bytes.toString(result2.getRow()));@ 


for(KeyValue kv : result2.raw()){ 
System.out.println(" Col: " + Bytes.toString(kv.getFamily())+6 


"/" + Bytes. toString(kv.getQualifier())+ 
",Value: " + Bytes.toString(kv.getValue())); 
} 


Result result3 = table.getRowOrBefore(Bytes.toBytes("abc"),@ 
Bytes .toBytes("colfam1")); 
System.out.println("Found: " + result3);® 








和 @ 关 试 查 找 已 经 存在 的 行 。 

Oi ARS 

全 尝试 查找 不 存在 的 行 。 

四 返回 已 排 好 序 的 表 中 的 最 后 一 条 结果 。 





加 打印 返回 结 

@ 和 尝试 查找 测试 行 之 前 的 一 行 。 

人 @ 由 于 没有 匹配 的 结果 ， 返 回 null 。 

假如 已 经 执行 过 例 3.4， 那 上 面 的 代码 将 会 输出 如 下 结 





Found: row1 

Found: row2 
Col: colfam1/qual1,Value: val2 
Col: colfam1/qual2,Value: val3 


Found: null 





第 一 次 调用 找到 一 个 匹配 的 行 ， 成 功 返 回 。 第 二 次 调用 使 用 了 一 个 
大 数字 作为 后 缀 来 得 找 表 的 最 后 一 行 。 从 row- 前 绥 开 始 ， 碍 找到 对 应 
的 row-2 行 。 最 后 一 个 例子 要 查找 abc 这 一 行 或 这 行 之 前 的 一 行 ， 不 过 
之 前 插入 数据 的 前 级 都 是 row- ， 所 以 abc 以 及 之 前 的 行 不 存在 。 因 此 
返回 值 为 nul1 ， 表 示 查 找 失 败 。 


令 人 感 兴 趣 的 是 ， 这 个 循环 打印 出 了 与 匹配 条 件 的 行 一 起 返回 的 数 
据 。 返 回 了 指定 列 族 的 所 有 列 ， 包 括 这 些 列 的 最 新 版 本 。 用 户 可 以 使 用 
这 种 方法 快速 取 回 特定 排序 规则 下 一 个 列 族 中 所 有 列 的 最 新 值 。 例 如 ， 
假设 像 Put 示例 一 样 ， 所 有 的 行 键 都 使 用 row- 作为 前 级 ， 调 
用 getRowOrBefore() 时 送 入 row-999999999 作为 row 人 参数， 返回 的 
结果 将 总 是 按 字 典 序 排 在 表 尾 的 那 一 行 。 
































3.2.3 ”删除 方法 

此 前 介绍 了 HBase 表 的 创建 、 读 取 和 更 新 ， 就 剩 如 何 从 表 中 删除 数 
据 没 讲 了 。HTable 提供 了 删除 的 方法 ， 同 时 与 之 前 的 方法 一 样 有 一 个 
相应 的 类 命名 为 Delete 。 
1. 单行 删除 


delete() 方法 有 许多 变 体 ， 其 中 一 个 只 需要 一 个 Delete 实例 : 











void delete(Delete delete) throws IOException 





与 前 面 讲 过 的 get() 方法 和 put() 方法 一 样 ， 用 户 必须 先 创 建 一 
个 Delete 实例 ， 然 后 再 添加 你 想 要 删除 的 数据 的 详细 信息 。 构 造 函 数 


KE: 


Delete(byte[] row) 
Delete(byte[] row,long timestamp,RowLock rowLock) 





用 户 需 要 提供 要 修改 的 行 ， 如 果 要 多 次 频 索 地 修改 同一 行 的 话 ， 还 
可 以 提供 rowLock 参数 (RowLock 类 的 一 个 实例 ) ， 以 指定 自己 的 
此 外 ， 最 好 缩小 要 删除 的 给 定 行 中 涉及 数据 的 范围 ， 可 使 用 
下 列 方法 : 


Delete deleteFamily(byte[] family) 

Delete deleteFamily(byte[] family, long timestamp) 

Delete deleteColumns(byte[] family,byte[] qualifier) 

Delete deleteColumns(byte[] family,byte[] qualifier,long timestamp) 
Delete deleteColumn(byte[] family,byte[] qualifier) 


Delete deleteColumn(byte[] family,byte[] qualifier,long timestamp) 
void setTimestamp(long timestamp) 





有 4 种 调用 可 缩小 删除 所 涉及 的 数据 范围 。 首 先 ， 用 户 可 以 使 
用 deleteFamily() 方法 来 删除 一 整个 列 族 ， 包 括 其 下 所 有 的 列 。 用 户 
也 可 以 指定 一 个 时 间 戳 ， 触 发 针对 单元 格 数据 版 本 的 过 滤 ， 从 所 有 的 列 
中 删除 与 这 个 时 间 戳 相 匹 配 的 版 本 和 比 这 个 时 间 惟 旧 的 版 本 。 


另 一 种 方法 是 deleteColumns() ， 它 作用 于 特定 的 一 列 ， 如 果 用 
户 没 有 指定 时 间 惟 ， 这 个 方法 会 删除 该 列 的 所 有 版 本 ， 如 果 用 户 指定 了 
这 个 方法 会 删除 所 有 与 这 个 时 间 惟 相 匹 配 的 版 本 和 更 旧 的 版 








第 三 种 方法 与 第 二 种 类 似 ， 使 用 deleteColumn() ， 它 也 操作 一 个 
具体 的 列 ， 但 是 只 删除 最 新 的 版 本 或 者 指定 的 版 本 ， 即 用 一 个 精确 匹配 
的 时 间 惟 执行 删除 操作 。 


最 后 一 个 方法 是 setTimestamp() ， 这 个 方法 在 调用 其 他 3 种 方法 
时 经 和 常 被 忽略 。 但 是 ， 如 果 不 指定 列 族 或 列 ， 则 此 调用 与 删除 整 行 不 
同 ， 它 会 删除 匹配 时 间 惟 的 或 者 比 给 定时 间 惟 旧 的 所 有 列 族 中 的 所 有 
列 。 表 3-5 以 表格 的 形式 展示 了 delete() 的 功能 ， 可 读 性 更 强 。 


表 3-5 detele() 功能 


无 时 间 戳 的 删 [ 有 时 间 惟 的 删 


删除 整 行 ， 即 所 有 列 的 所 | 从 所 有 列 族 的 所 有 列 中 删除 与 给 定时 间 
有 版 本 ERIH EEK SE IH HI Fig AS 
WIE 


R 
deini 只 删除 给 定 列 的 最 新 版 RR-S EREA EI ERR 
本 ,保留 旧版 本 本 ， 如 果 不 存在 ， 则 不 删除 




















出 除 给 定 列 的 所 有 版 本 e 


jeleteFanily() | 删除 给 定 列 族 中 的 所 有 列 | 从 给 定 列 族 下 的 所 有 列 中 删除 与 给 定时 
YO | 〈 包 括 所 有 版 本 ) 间 改 相等 或 更 旧 的 版 本 























表 3-6 列 举 了 Delete 类 提供 的 其 他 方法 ， 以 供用 户 查 阅 。 


表 3-6 Delete 类 提供 的 其 他 方法 概览 





返回 创建 belete 实例 时 指定 的 行 键 


返回 当前 Delete 实例 的 RowLock 实例 


rt 回 使 用 raulk 参 数 创建 实例 时 可 选 参数 锁 ID 的 值 ， 如 果 没 有 指定 则 
getLockId() Aaa 


getTimeStamp() | 检索 Delete KHK HITE ER 














z 检查 FamilyMap 是 否 含有 任何 条 目 ， 即 用 户 所 指定 的 想 要 删除 的 列 族 
eae 或 者 列 


这 个 方法 可 以 获取 用 户 通 过 deleteFamily() 以 及 
deleteColumn()/deleteColumns() 添加 的 要 删除 的 列 和 列 族 ， 返 回 的 
FamilyMap 是 使 用 列 族 名 作为 键 ， 它 的 值 是 当前 列 族 下 要 删除 的 列 限 
定 符 的 列表 











getFamilyMap() 














例 3.12 展 示 了 怎样 在 客户 端 代码 中 调用 delete() 函数 。 
例 3.12 ”从 HBase 中 删除 数据 的 应 用 示例 


Delete delete = new Delete(Bytes.toBytes("row1"));@ 
delete.setTimestamp(1);@ 
delete.deleteColumn(Bytes.toBytes("colfam1"),Bytes.toBytes("qual1"),1);6 


delete.deleteColumns(Bytes.toBytes("colfam2") ,Bytes.toBytes("qual1"));@ 
delete.deleteColumns(Bytes.toBytes("colfam2") ,Bytes.toBytes("qual3"),15);6 


delete.deleteFamily(Bytes.toBytes("colfam3")) 5; 
delete.deleteFamily(Bytes.toBytes("colfam3"),3);0 


table.delete(delete);6 
table.close(); 





@@ 创 建 针 对 特定 行 的 Delete 实例 。 

四 设置 时 间 戳 。 

四 删 除 一 列 中 的 特定 版 本 。 

四 删除 一 列 中 的 全 部 版 本 。 

加 删除 一 列 中 的 给 定 版 本 和 所 有 更 旧 的 版 本 。 

@@ 删 除 整个 列 族 ， 包 括 所 有 的 列 和 版 本 。 

@ 州 除 给 定 列 族 中 所 有 列 的 给 定 版 本 和 所 有 更 旧 的 版 本 。 

全 从 HBase 表 中 删除 数据 。 

这 个 例子 列举 出 了 用 户 通 过 设 定 不 同 参 数 操作 delete( ) 方法 的 方 


法 。 像 这 样 一 个 接着 一 个 调用 没有 太 大 实际 意义 ， 读 者 可 以 随意 注释 挥 
一 些 删除 调用 ， 观 察 控制 台 上 显示 结果 的 变化 。 








删除 操作 上 历 设 定 的 时 间 戳 只 对 匹配 的 单元 格 有 影响 ， 即 匹配 给 定时 
间 惟 的 列 和 值 。 另 一 方面 ， 如 果 不 设 定时 间 戳 ， 服 务 需 会 强制 检索 服务 
需 端 最 新 的 时 间 惟 ， 这 比 执行 一 个 具有 明确 时 间 戳 的 删除 要 慢 。 


如 末 答 试 删除 未 设置 时 间 戳 的 单元 格 ， 什 么 都 不 会 发 生 。 例 如 ， 东 
ee 版 本 10 和 版 本 20， 删 除 版 本 15 将 不 会 影响 现存 的 任何 


这 个 例子 同时 展示 了 用 户 自 定义 数据 版 本 的 用 法 。 它 使 用 从 1 开始 
目 增 的 序号 ， 不 依靠 隐 式 或 显 式 的 时 间 惟 。 这 种 方式 非常 有 用 ， 用 户 必 
须 按 需求 自己 设置 版 本 ， 因 为 服务 喜 并 不 知道 客户 端的 使 用 模式 ， 只 会 
使 用 Unix 时 间 惟 来 代 蔡 。 

















| 

性 ”| 就 本 文 而 言 ， 不 建议 用 户 自 定 义 版 本 号 。 自 定义 版 
本 号 可 能 会 起 作用 ， 但 是 没有 经 过 很 好 的 测试 。 请 确保 使 用 
这 项 技术 之 前 仔细 评估 过 你 的 选择 。 














使 用 自 定 义 版 本 的 另 一 个 例子 可 以 在 9.4 节 中 找到 。 
2. Delete 的 列表 
基于 列表 的 delete() 调用 与 基于 列表 的 put() 调用 非常 相似 ， 需 


实例 的 列表 ， 对 其 进行 配置 ， 并 调用 下 面 的 方 
法 : 


void delete(List<Delete> deletes) throws IOException 


例 3.13 展 示 了 影响 三 个 不 同行 的 删除 操作 ， 删 除了 它们 所 包含 的 各 
种 细节 。 妆 运行 这 个 例子 时 ， 你 会 看 到 打印 输出 的 删除 前 后 的 状态 ， 还 


能 看 到 使 用 KkeyValue .tostring() 打印 输出 的 原始 的 KeyValue 实 
例 。 


rv 

正如 其 他 基于 列表 的 操作 ， 用 户 不 能 对 删除 操作 在 
远程 服务 器 上 的 执行 顺序 做 任何 假设 。API 会 重新 排列 它们 ， 
并 将 同一 个 region 服 务 器 的 操作 集中 到 一 个 RPC 请 求 中 以 提升 
性 能 。 如 果 需 要 确保 执行 的 顺序 ， 用 户 需 要 把 这 些 调用 分 成 
更 小 的 组 ， 并 控制 组 之 间 的 执行 顺序 。 在 最 坏 的 情况 下 ， 需 
要 发 送 单独 的 Delete 调用 以 保证 顺序 。 











例 3.13 ”删除 值 列 表 的 应 用 示例 


List< Delete> deletes = new ArrayList< Delete>();@ 


Delete delete1 = new Delete(Bytes.toBytes("row1")); 
deletel.setTimestamp(4) ;@ 
deletes.add(delete1) ; 


Delete delete2 = new Delete(Bytes.toBytes("row2")); 
delete2.deleteColumn(Bytes.toBytes("colfam1") ,Bytes.toBytes("qual1"));6 
delete2.deleteColumns(Bytes.toBytes("colfam2") ,Bytes.toBytes("qual3"),5);@ 
deletes.add(delete2) ; 


Delete delete3 = new Delete(Bytes.toBytes("row3")); 
delete3.deleteFamily(Bytes.toBytes("colfam1") );6 
delete3.deleteFamily(Bytes.toBytes("colfam2") ,3);@ 
deletes.add(delete3) ; 


table.delete(deletes);o 


table.close(); 





@@ 创 建 一 个 列表 ， 保 存 Delete 实例 。 

四 为 删除 行 的 Delete 实例 设置 时 间 戳 。 

全 删除 一 列 的 最 新 版 本 。 

人 @ 在 男 一 列 中 删除 给 定 的 版 本 及 所 有 更 旧 的 版 本 。 

全 删除 整个 列 族 ， 包 括 所 有 的 列 和 版 本 。 

@ 在 整个 列 族 中 ， 删 除 给 定 的 版 本 以 及 所 有 更 旧 的 版 本 。 
@ 删 除 HBase 表 中 的 多 行 。 

你 会 看 到 如 下 输出 © : 





Before delete call... 
KV: row1/colfam1:qual1/2/Put/vlen=4,Value: val2 


KV: row1/colfam1:qual1/1/Put/vlen=4,Value: val1 


KV: row1/colfam1:qual2/4/Put/vlen=4,Value: val4 


KV: row1/colfam1:qual2/3/Put/vlen=4,Value: val3 


KV: row1/colfam1:qual3/6/Put/vlen=4,Value: val6 
KV: row1/colfam1:qual3/5/Put/vlen=4,Value: val5 


KV: row1/colfam2:qual1/2/Put/vlen=4,Value: val2 


KV: 


KV: 


KV: 


KV: 
KV: 


KV: 


KV: 
KV: 
KV: 
KV: 
KV: 


KV: 
KV: 
KV: 
KV: 
KV: 
KV: 


KV: 


KV: 


row1/colfam2 


row1/colfam2 


row1/colfam2 


rowl/colfam2: 
rowl/colfam2: 


row2/colfam1 


row2/colfam1: 
row2/colfam1: 
row2/colfam1: 
row2/colfam1: 
row2/colfam1: 


row2/colfam2: 
row2/colfam2: 
row2/colfam2: 
row2/colfam2: 
row2/colfam2: 


row2/colfam2 


row3/colfam1 


row3/colfam1 


:qual1/1/Put/vlen=4, Value: 


:qual2/4/Put/vlen=4, Value: 


:qual2/3/Put/vlen=4, Value: 


qual3/6/Put/vlen=4, Value: 
qual3/5/Put/vlen=4, Value: 


:qual1/2/Put/vlen=4, Value: 


qual1/1/Put/vlen=4, Value: 
qual2/4/Put/vlen=4, Value: 
qual2/3/Put/vlen=4, Value: 
qual3/6/Put/vlen=4, Value: 
qual3/5/Put/vlen=4, Value: 


qual1/2/Put/vlen=4, Value: 
qual1/1/Put/vlen=4, Value: 
qual2/4/Put/vlen=4, Value: 
qual2/3/Put/vlen=4, Value: 
qual3/6/Put/vlen=4, Value: 
:qual3/5/Put/vlen=4, Value: 


:qual1/2/Put/vlen=4, Value: 


:qual1/1/Put/vlen=4, Value: 


vall 


val4 


val3 


val6 
val5 


val2 


vali 
val4 
val3 
val6 
val5 


val2 
vali 
val4 
val3 
val6 
val5 


val2 


val1 


KV: 


KV: 


KV: 


KV: 


KV: 


KV: 


KV: 
KV: 


KV: 
KV: 


row3/colfam1 


row3/colfam1 


row3/colfam1 


row3/colfam1 


row3/colfam2 


row3/colfam2 


row3/colfam2: 


row3/colfam2 


row3/colfam2: 
row3/colfam2: 


:qual2/4/Put/vlen=4, Value: 


:qual2/3/Put/vlen=4, Value: 


:qual3/6/Put/vlen=4, Value: 


:qual3/5/Put/vlen=4, Value: 


:qual1/2/Put/vlen=4, Value: 


:qual1/1/Put/vlen=4, Value: 


qual2/4/Put/vlen=4, Value: 
:qual2/3/Put/vlen=4, Value: 


qual3/6/Put/vlen=4, Value: 
qual3/5/Put/vlen=4, Value: 


After delete call... 


KV: row1/colfam1: qual3/6/Put/vlen=4, Value: 
KV: row1/colfam1: qual3/5/Put/vlen=4, Value: 


KV: row1/colfam2:qual3/6/Put/vlen=4, Value: 


val4 


val3 


val6 


val5 


val2 


vall 


val4 
val3 


val6 
val5 


val6 
val5 


val6 


: rowl/colfam2: 


: row2/colfam1: 
: row2/colfam1: 
: row2/colfam1: 
: row2/colfam1 
: row2/colfam1: 


: row2/colfam2: 
: row2/colfam2 
: row2/colfam2: 
: row2/colfam2: 
: row2/colfam2: 


: row3/colfam2: 
: row3/colfam2: 
: row3/colfam2: 


qual3/5/Put/vlen=4,Value: 


qual1/1/Put/vlen=4,Value: 
qual2/4/Put/vlen=4,Value: 
qual2/3/Put/vlen=4,Value: 
:qual3/6/Put/vlen=4, Value: 
qual3/5/Put/vlen=4, Value: 


qual1/2/Put/vlen=4, Value: 
:qual1/1/Put/vlen=4, Value: 
qual2/4/Put/vlen=4, Value: 
qual2/3/Put/vlen=4, Value: 
qual3/6/Put/vlen=4, Value: 


qual2/4/Put/vlen=4, Value: 
qual3/6/Put/vlen=4, Value: 
qual3/5/Put/vlen=4, Value: 


val5 


vali 
val4 
val3 
val6 
val5 


val2 
vali 
val4 
val3 
val6 


val4 
val6 
val5 





“Before delete call...” 中 突出 显示 ( 粗 体 ) 的 部 分 是 将 要 被 删除 的 原 
始 数据 。 这 3 行 包 含 同 样 的 数据 ， 由 两 个 列 族 组 成 ， 每 个 列 族 下 有 3 列 ， 
每 个 列 有 两 个 版 本 。 


示例 代码 移 删 除了 整 行 数据 中 版 本 小 于 等 于 4 的 数据 ， 这 次 操作 留 
下 了 版 本 为 5 和 6 的 数据 。 


之 后 ， 使 用 两 个 指定 了 列 的 删除 操作 ， 先 后 清除 了 row2 
上 colfam1:qual1 列 的 最 新 单元 格 ， 以 及 colfam1:qual3 中 小 于 等 于 
5 的 所 有 单元 格 。 这 两 个 删除 操作 都 只 有 一 个 单元 格 满足 条 件 ， 它 们 将 
依次 被 删除 。 


最 后 ， 在 row-3 上 ， 示 例 代码 删除 了 列 族 colfam1 下 的 全 部 数据 ， 
然后 还 删除 了 colfam2 中 版 本 小 于 等 于 3 的 所 有 数据 。 在 示例 代码 执行 
的 过 程 中 ， 使 用 以 下 的 方法 可 以 看 到 KeyValue 的 详细 情况 : 


System.out.println("KV: " 
"Value: " 


+ kv.toString() + 


+ Bytes.toString(kv.getValue() )) 





现在 ， 我 们 熟悉 了 Bytes 类 的 使 用 ， 可 以 用 它 打 印 由 getValue() 
返回 的 KeyValue 实例 的 值 。 这 样 做 是 有 必要 的 ， 
为 KeyValue.toString() 方法 ( 见 3.2.1 市 ) 无 法 打印 出 实际 的 值 ， 只 
ee toString() 无 法 打印 出 值 的 原因 是 ， 值 的 内 容 
可 能 非常 大 。 


示例 代码 插入 的 列 值 非常 短 ， 并 且 内 容 是 可 读 的 ， 所 以 在 控制 台 上 
把 结果 打印 出 来 是 安全 的 。 用 户 也 可 以 在 调试 时 使 用 类 似 的 方法 。 


请 参阅 本 书 的 源 代码 库 ， 那 里 有 例子 中 全 部 的 源码 。 用 户 可 以 从 中 
碍 看 数据 如 何 插入 ， 并 最 终 形成 前 面 示例 代码 中 的 输出 。 





最 后 要 介绍 的 是 基于 列表 的 delete() 操作 的 异常 处 理 。 下 面 对 传 
入 的 deletes 参数 〈 即 Delete 实例 的 列表 ) 做 一 下 修改 ， 使 得 在 调用 
返回 时 ， 还 有 一 个 错误 的 Delete 实例 。 换 句 话说 ， 如 果 所 有 的 操作 都 
成 功 了 ， 这 个 列表 会 为 空 。 但 是 ， 如 果 最 后 还 有 一 个 实例 的 话 ， 远 程 服 
务 器 会 报告 这 个 错误 ， 这 个 调用 也 要 抛 出 异常 。 用 户 需 要 用 tryy/catch 
语句 捕获 异常 ， 并 做 相应 处 理 。 例 3.14 是 一 个 简单 的 示范 。 


例 3.14 ”从 HBase 中 删除 错误 数据 





Delete delete4 = new Delete(Bytes.toBytes("row2")); 
delete4.deleteColumn(Bytes.toBytes("BOGUS") , 


Bytes. toBytes("qual1"));@ 
deletes.add(delete4) ; 


try { 
table.delete(deletes);@ 

} catch(Exception e){ 
System.err.println("Error: " + e);® 


} 
table.close(); 


System.out.println( "Deletes length: " + deletes.size());@ 

for(Delete delete : deletes){ 
System.out.println(delete) 56 

} 


pT 


@ 添 加 一 个 错误 的 列 族 来 触发 错误 。 

台 从 HBase 表 中 删除 多 行 数据 。 

@ 捕 获 远 程 异常 。 

@@ 检 查 调用 之 后 列表 的 长 度 。 

加 把 失败 的 delete 操 作 打印 出 来 用 于 调试 。 


这 个 例子 修改 了 例 3.13， 添 加 了 一 个 出 错 的 删除 细节 ， 即 添加 了 一 
J (BOGUS) 列 族 。 输 出 结果 与 例 3.13 相 似 ， 只 是 中 间 有 一 些 其 


Before delete call... 
: rowl/colfam1:quali/2/Put/vlen=4,Value: val2 
: rowl/colfam1:quali/1/Put/vlen=4,Value: val1 


: row3/colfam2:qual3/6/Put/vlen=4,Value: val6 
: row3/colfam2:qual3/5/Put/vlen=4,Value: val5 


Error: org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException 


Failed 1 action: NoSuchColumnFamilyException: 1 time, 
servers with issues: 10.0.0.43:59057, 

Deletes length: 1 

row=row2, ts=9223372036854775807, families={ (family=BOGUS, keyvalues=\ 
(row2/BOGUS : qual1/9223372036854775807/Delete/vlen=@) } 


After delete call... 
: rowl/colfam1:qual3/6/Put/vlen=4,Value: val6 
: rowl/colfam1:qual3/5/Put/vlen=4,Value: val5 


: row3/colfam2:qual3/6/Put/vlen=4,Value: val6 
: row3/colfam2:qual3/5/Put/vlen=4,Value: val5 





如 预期 的 一 样 ， 列 表 中 还 剩 下 一 个 Delete 实例 ， 就 是 包含 错误 列 


族 的 那个 。 打 印 这 个 实例 〈Java 默 认 使 用 tostring() 方法 来 打印 一 个 
对 象 ) ， 结 果 展 示 了 这 个 出 错 的 实例 的 内 部 细 市 。 失 败 的 主要 原因 是 ， 
列 族 名 明显 是 错误 的 。 读 者 可 以 用 这 个 方法 检查 一 个 操作 出 错 的 原因 ， 
出 错 原 因 通 常 都 十 分 明显 。 


最 后 ， 注 意 一 下 例子 中 catch 语句 捕获 的 异 
常 RetriesExhaustedwithDetailsException ， 它 在 之 前 的 例子 中 已 
经 出 现 过 两 次 了 。 这 个 异常 报告 出 错 的 操作 个 数 ， 报 告 重 试 的 次 数 及 对 
应 的 服务 器 。 更 进一步 的 处 理 方法 包括 检查 和 监控 服务 器 ， 这 些 细节 将 
er 这 里 返回 的 出 错 的 服务 器 地 址 可 以 帮助 我 们 定位 
普 误 的 根源 。 


3. 原子 性 操作 compare-and-delete 
前 文 已 经 在 “原子 性 操作 compare-and-set” 一 节 介 绍 过 ， 如 何 使 用 原 


子 性 的 条 件 操作 辣 表 中 插入 数据 。 有 一 个 相似 的 删除 操作 ， 提 供 了 让 用 
户 可 以 在 服务 器 端 谈 取 并 修改 (read-and-modify〉 的 功能 : 








boolean checkAndDelete(byte[] row,byte[] family,byte[] qualifier, 
byte[] value,Delete delete) throws IOException 








用 户 必 须 指 定 行 键 、 列 族 、 列 限定 符 和 值 来 执行 删除 操作 之 前 的 检 
查 。 如 果 检 查 失 败 ， 则 不 执行 删除 操作 ， 调 用 返回 false 。 如 果 检 查 成 
功 ， 则 执行 删除 操作 ， 调 用 返回 true 。 例 3.15 展 示 了 这 里 介绍 的 内 容 。 


例 3.15 ”使 用 原子 操作 compare-and-delete 删 除 值 的 应 用 示例 





Delete delete1 = new Delete(Bytes.toBytes("row1")); 
delete1.deleteColumns(Bytes.toBytes("colfam1") ,Bytes.toBytes("qual3"));@ 


boolean resi = table.checkAndDelete(Bytes.toBytes("row1"), 
Bytes.toBytes("colfam2") ,Bytes.toBytes("qual3"),null,delete1);@ 
System.out.println("Delete successful: " + res1);je 


Delete delete2 = new Delete(Bytes.toBytes("row1")); 
delete2.deleteColumns(Bytes.toBytes("colfam2") ,Bytes.toBytes("qual3"));@ 
table.delete(delete2) ; 


boolean res2 = table.checkAndDelete(Bytes.toBytes("row1"), 
Bytes.toBytes("colfam2") ,Bytes.toBytes("qual3"),null,delete1);6 
System.out.println( "Delete successful: " + res2);0 


Delete delete3 = new Delete(Bytes.toBytes("row2")); 
delete3.deleteFamily(Bytes.toBytes("colfam1") );@ 


try{ 
boolean res4 = table.checkAndDelete(Bytes.toBytes("row1"), 
Bytes.toBytes("colfam1"),Bytes.toBytes("quali"),e 
Bytes.toBytes("val1") ,delete3) ; 


System.out.println("Delete successful: " + res4);0 
} catch(Exception e)f{ 

System.err.printin("Error: " + e); 
} 





各 创建 一 个 Delete 实例 。 





四 检查 指定 列 是 否 不 存在 ， 依 检查 结果 执行 删除 操作 。 
OH AAR, HRM “Delete successful: false” - 
四 手工 删除 已 经 检查 过 的 列 。 

全 尝试 再 一 次 删除 同一 个 单元 格 。 


@ 打 印 结果 ， 应 当 为 “Delete successful: true”， 因 为 这 个 列 之 前 存在 
所 以 成 功 删 除 。 


@ 创 建 男 一 个 Delete 实例 ， 这 次 使 用 一 个 不 同 的 行 。 
@@ 检 查 这 个 不 同 的 行 ， 并 执行 删除 操作 。 

@ 执 行 不 到 这 里 ， 在 此 行 之 前 有 异常 抛 出 。 
示例 的 全 部 输出 如 下 : 





Before delete call... 
KV: row1/colfam1:qual1/2/Put/vlen=4,Value: val2 
KV: row1/colfam1:qual1/1/Put/vlen=4, Value: vali 


KV : 
KV : 
KV : 
KV : 
KV : 
KV : 
KV : 
KV : 
KV : 
KV : 


rowl/colfam1: 
rowl/colfam1: 
rowl/colfam1: 
rowl/colfam1: 
rowl/colfam2: 
rowl/colfam2: 
rowl/colfam2: 
rowl/colfam2: 
rowl/colfam2: 
rowl/colfam2: 


qual2/4/Put/vlen=4, Value: 
qual2/3/Put/vlen=4, Value: 
qual3/6/Put/vlen=4, Value: 
qual3/5/Put/vlen=4, Value: 
qual1/2/Put/vlen=4, Value: 
qual1/1/Put/vlen=4, Value: 
qual2/4/Put/vlen=4, Value: 
qual2/3/Put/vlen=4, Value: 
qual3/6/Put/vlen=4, Value: 
qual3/5/Put/vlen=4, Value: 


Delete successful: false 
Delete successful: true 
After delete call... 


KV: 
KV: 
KV: 
KV: 
KV: 
KV: 
KV: 
KV: 


rowl/colfam1: 
rowl/colfam1: 
rowl/colfam1: 
rowl/colfam1: 
rowl/colfam2: 
rowl/colfam2: 
rowl/colfam2: 
rowl/colfam2: 


qual1/2/Put/vlen=4, Value: 
qual1/1/Put/vlen=4, Value: 
qual2/4/Put/vlen=4, Value: 
qual2/3/Put/vlen=4, Value: 
qual1/2/Put/vlen=4, Value: 
qual1/1/Put/vlen=4, Value: 
qual2/4/Put/vlen=4, Value: 
qual2/3/Put/vlen=4, Value: 


val4 
val3 
val6 
val5 
val2 
vali 
val4 
val3 
val6 
val5 


val2 
vali 
val4 
val3 
val2 
vali 
val4 
val3 


Error: org.apache.hadoop.hbase.DoNotRetryIOException: 
org.apache.hadoop.hbase.DoNotRetryIOException: 
Action's getRow must match the passed row 





将 nul1 作为 value 参数 的 传 入 值 ， 将 会 触发 一 次 “不 存 
在 ”(nonexistence) 检查 ， 即 所 指定 的 列 只 要 不 存在 ， 检 查 束 会 成 功 。 





因为 上 面 这 个 例子 在 检查 之 前 插入 了 检查 过 的 列 ， 所 以 第 一 次 检查 会 失 
败 ， 调 用 会 返回 false 并 放弃 删除 操作 。 


之 后 这 一 列 被 手工 删除 ， 第 二 次 执行 检查 并 修改 (check-and- 
modify) 操作 。 这 次 检查 成 功 ， 删 除了 数据 ， 最 后 返回 true 。 


跟 之 前 关于 Put 的 CAS 调 用 一 样 ， 用 户 只 能 对 同一 行 数据 进行 检查 
并 修改 。 例 子 中 检查 的 行 键 与 Delete 实例 自身 的 行 键 不 同 ， 所 以 在 执 
行 检查 时 会 相应 地 抛 出 异常 。 这 个 方法 允许 用 户 做 跨 列 族 检 查 ， 例 如 ， 
用 户 可 以 使 用 一 组 列 控 制 筛 选 其 他 列 。 


这 个 例子 还 不 足以 证 明 检 查 并 删除 Ccheck-and-delete) 操作 的 重要 











性 。 在 分 布 式 系统 中 ， 很 难 可 靠 地 完成 这 种 操作 ， 并 且 很 难 避 免 由 外 部 
锁 带 来 的 性 能 上 的 损失 。 换 句 话 说， 如 果 原子 性 由 客户 端 保证 ， 那 么 就 
要 对 整 行 数据 加 排他 锁 。 如 果 在 已 加 锁 的 情况 下 客户 端 崩溃 ， 那 么 服务 
器 端 必须 通过 超时 机 制 来 对 数据 解锁 。 这 样 也 需要 额外 的 RPC 请 求 ， 这 
比 一 次 服务 器 端的 操作 要 慢 很 多 。 


3.3 ”批量 处 理 操 作 


现在 我 们 已 经 介绍 过 添加 、 检 索 和 删除 表 中 数据 的 操作 了， 不 过 前 
面 介 绍 的 操作 都 是 基于 单个 实例 或 基于 列表 的 操作 。 这 一 节 将 会 介绍 一 
些 API 调 用 ， 这 些 调用 可 以 批量 处 理 跨 多 行 的 不 同 操作 。 


一 一 事实 上 ， 许 多 基于 列表 的 操作 ， 如 
delete(List<Delete> deletes) 或 者 get(List<Gety> 
gets) ， 都 是 基于 batch() 方法 实现 的 。 它 们 都 是 一 些 为 了 
方便 用 户 使 用 而 保留 的 方法 。 如 果 你 是 新 手 ， 推 荐 使 

用 batch() 方法 进行 所 有 操作 。 








下 面 的 客户 端 API 方 法 提供 了 批量 处 理 操 作 。 用 户 可 能 注意 到 这 里 
引入 了 一 个 新 的 名 为 Row 的 类 ， 它 是 Put 、Get 和 Delete 的 祖先 ， 或 
者 说 是 父 类 。 


void batch(List< Row> actions,Object[] results) 
throws IOException, InterruptedException 
Object[] batch(List< Row> actions) 


throws IOException, InterruptedException 








使 用 同样 的 父 类 人 允许 在 列表 中 实现 多 态 ， 即 放 入 以 上 3 种 不 同 的 子 
类 。 这 种 调用 跟 之 前 介绍 的 基于 列表 的 调用 方法 一 样 简 单 易 用 。 下 面 的 
例 3.16 展 示 了 如 何 把 不 同 的 操作 融合 为 一 个 服务 占 端 调用 。 


| 请 注意 ， 不 可 以 将 针对 同一 行 的 put 和 Delete 操作 
放 在 同一 个 批量 处 理 请 求 中 。 为 了 保证 最 好 的 性 能 ， 这 些 操 
作 的 处 理 顺 序 可 能 不 同 ， 但 是 这 样 会 产生 不 可 预料 的 结果 。 
由 于 资源 竞争 ， 某 些 情况 下 ， 用 户 会 看 到 波动 的 结果 。 








例 3.16 ”使 用 批量 处 理 操作 的 应 用 示例 





private final static byte[] ROW1 = Bytes.toBytes("row1"); 
private final static byte[] ROW2 = Bytes.toBytes("row2"); 
private final static byte[] COLFAM1 = Bytes.toBytes("colfam1");@ 
private final static byte[] COLFAM2 = Bytes.toBytes("colfam2") ; 
private final static byte[] QUAL1 = Bytes.toBytes("qual1"); 
private final static byte[] QUAL2 = Bytes.toBytes("qual2"); 


List< Row> batch = new ArrayList< Row>();@ 


Put put = new Put(ROW2); 
put .add(COLFAM2, QUAL1,Bytes.toBytes("val5"));e 
batch.add(put) ; 


Get get1 = new Get(ROW1); 
get1.addColumn(COLFAM1, QUAL1) ;@ 
batch. add(get1); 


Delete delete = new Delete(ROW1); 
delete.deleteColumns (COLFAM1,QUAL2) ;e 
batch. add(delete) ; 


Get get2 = new Get(ROW2); 
get2.addFamily(Bytes.toBytes("BOGUS"));@ 
batch.add(get2); 


Object[] results = new Object[batch.size() ];o0 
try { 
table.batch(batch, results); 
} catch(Exception e)f{ 
System.err.println("Error: " + e);® 


} 


for(int i = 6;i < results.length;i++){ 
System.out.println("Result[" + i + "]: " + results[i]);o 


} 





@ 使 用 常量 可 以 方便 重用 。 

四 创建 列表 存放 所 有 操作 。 

全 添加 一 个 Put 实例 。 

四 添加 一 个 针对 不 同行 的 Get 实例 。 
加 添加 一 个 Delete 实例 。 

@ 添 加 一 个 会 失败 的 Get 实例 。 

人 @ 创 建 一 个 结果 数组 。 

@ 打 印 捕 获 的 异常 。 

@ 打 印 所 有 结 

从 控制 台 上 可 以 看 到 以 下 结 





Before batch call... 

KV: row1/colfam1:qual1/1/Put/vlen=4,Value: vali 
KV: row1/colfam1:qual2/2/Put/vlen=4, Value: val2 
KV: row1/colfam1: qual3/3/Put/vlen=4, Value: val3 


Result[@]: keyvalues=NONE 
Result[1]: keyvalues={row1/colfam1:qual1/1/Put/vlen=4} 
Result[2]: keyvalues=NONE 
Result[3]: org.apache.hadoop.hbase.regionserver.NoSuchColumnFamilyExceptio 
n: 
org.apache.hadoop.hbase.regionserver .NoSuchColumnFamilyException: 
Column family BOGUS does not exist in... 


After batch call... 
KV: row1/colfam1:qual1/1/Put/vlen=4, Value: vali 


KV: row1/colfam1:qual3/3/Put/vlen=4,Value: val3 
KV: row2/colfam2:qual1/1308836506340/Put/vlen=4,Value: val5 


Error: org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException 


Failed 1 action: NoSuchColumnFamilyException: 1 time, 
servers with issues: 10.0.0.43:60020, 





与 之 前 的 例子 一 样 ， 在 执行 批量 处 理 之 前 ， 由 于 插入 了 测试 行 的 数 
据 ， 因 此 先 打印 了 测试 行 的 相关 输出 。 首 先 输出 的 是 表 的 原 内 容 ， 然 后 
古 示 例 代码 产生 的 输出 ， 最 后 输出 的 是 操作 以 后 的 表 的 内 容 。 由 输出 结 
果 可 见 ， 要 删除 的 列 被 删除 了 ， 新 添加 的 列 也 成 功 添加 了 。 


Get 操作 的 结果 需要 观察 输出 结果 的 中 间 部 分 ， 即 示例 代码 产生 的 
输出 。 那 些 以 Result[n] (n 从 0 到 3) 开头 的 输出 是 actions 参数 中 对 
应 操作 的 结果 。 示 例 中 第 一 个 操作 是 Put ， 对 应 的 结果 是 一 个 空 的 
Result 实例 ， 其 中 没有 KeyValue 实例 。 这 是 批量 处 理 调用 返回 值 的 通 
TA E A EE 
0 表 3-7 上 所 不 。 


表 3-7 batch() 调用 可 能 的 返回 结 











put 和 Delete 操作 成 功 后 的 返回 结果 





当 服 务 器 端 返回 一 个 异常 时 ， 这 个 异常 会 按 原 样 返 回 给 客户 端 。 用 户 
Throwable | 以 使 用 这 个 异 弟 检查 哪里 出 了 错 ， 也 许可 以 在 自己 的 代码 中 自动 处 理 异 




























































































rh 





更 进一步 地 观察 控制 台 上 输出 的 返回 结果 数组 ， 你 会 发 现 空 的 
Result 实例 打印 出 来 是 : keyvalues=NONE 。Get 请 求 成 功 找 到 了 相 
匹配 的 结果 ， 返 回 一 个 对 应 的 KeyValue 实例 。 最 后 ， 有 一 个 BOGUS 列 
族 的 操作 请 求 并 返回 一 个 异常 供用 户 参考 。 





一 一 当 用 户 使 用 batch() 功能 时 ，Put 实例 不 会 被 客户 
端 写 入 缓冲 区 缓冲 。batch() 请 求 是 同步 的 ， 会 把 操作 直接 
发 送 到 服务 器 端 ， 这 个 过 程 没有 什么 延迟 或 其 他 中 间 操 作 。 
这 与 put() 调用 明显 不 同 ， 所 以 请 慎重 挑选 需要 的 方法 。 


有 两 种 不 同 的 批量 处 理 操作 看 起 来 非常 相似 。 不 同 之 处 在 于 ， 一 个 
需要 用 户 输入 包含 返回 结果 的 Object 数组 ， 而 另 一 个 由 函数 帮助 用 户 
创建 这 个 数组 。 为 什么 需要 两 个 方法 呢 ? 它们 的 语义 有 什么 不 同 吗 〈 如 
果 有 不 同 的 话 ) ? 它们 都 可 能 抛 出 之 前 见 到 过 的 
RetriesExhaustedWithDetailsException ， 所 以 关键 的 不 同 在 于 : 


void batch(List<Row> actions,Object[] results) 
throws IOException, InterruptedException 





上 面 这 个 方法 让 用 户 可 以 访问 部 分 结果 ， 而 下 面 这 个 方法 不 行 : 


Object[] batch(List<Row> actions ) 
throws IOException, InterruptedException 





Fa Tee PE RA oe I, AaB ERIE, Arai 





AAR ZA, PERUA ATS. 

而 之 前 的 方法 会 先 回 用 户 提 供 的 数组 中 填充 数据 ， 然 后 再 抛 出 异 
常 。 例 3.16 的 代码 就 采用 了 前 一 种 方法 ， 并 提交 了 结果 数组 。 下 面 是 一 
Hbatch() 方法 特性 的 汇总 。 


两 种 方法 的 共同 点 


get、put 和 delete 都 文 持 。 如 果 执 行 时 出 现 问题 ， 客 户 端 将 抛 出 异常 
并 报告 问题 。 它 们 都 不 使 用 客户 问 写 缓冲 区 。 


void batch(actions, results) 








能 够 访问 成 功 操作 的 结果 ， 同 时 也 可 以 获取 远程 远程 什么 需要 两 个 
方法 昵 ?” 他 失败 时 的 异 瘦 。 





Object[] batch(actions) 


只 返回 客户 并 异常 ， 不 能 访问 程序 执行 中 的 部 分 结 





| a 
一 在 检查 结果 之 前 ， 所 有 的 批量 处 理 操作 都 被 执行 
了 : 即使 用 户 收 到 一 个 操作 的 异常 ， 其 他 操作 也 都 已 经 执行 


了 。 不 过 ， 在 最 坏 的 情况 下 ， 可 能 所 有 操作 都 会 返回 异常 。 





另外 ， 批 量 处 理 可 以 感知 暂时 性 错误 ， 例 如 
NotServingRegionException 〈 表 明 一 个 region 已 经 被 移 
动 ) 会 多 次 重 试 这 个 操作 。 用 户 可 以 通过 调 
#hbase.client.retries.number 配置 项 (默认 是 10) 来 
增加 或 减少 重 试 次 数 。 





3.4 行 锁 


像 put() ~ delete() 、checkAndPut() 这 样 的 修改 操作 是 独立 执 
行 的 ， 这 意味 着 在 一 个 串 行 方式 的 执行 中 ， 对 于 每 一 行 必须 保证 行 级别 
的 操作 是 原子 性 的 。 region 服 务 器 提供 了 一 个 行 俩 (row lock) 的 特 
性 ， 这 个 特性 保证 了 只 有 一 个 客户 端 能 获取 一 行 数据 相应 的 锁 ， 同 时 对 
该 行进 行 修 改 。 在 实践 中 ， 大 部 分 客户 端 应 用 程序 都 没有 提供 显 式 的 
锁 ， 而 是 使 用 这 个 机 制 来 保障 每 个 操作 的 独立 性 。 








-> 

> 用 户 应 该 尽 可 能 地 避免 使 用 行 锁 。 就 像 在 RDBMS 
中 ， 两 个 客户 端 很 可 能 在 拥有 对 方 要 请 求 的 锁 时 ， 又 同时 请 
求 对 方 已 拥有 的 锁 ， 这 样 便 形成 了 一 个 死 锁 。 


锁 超 时 之 前 ， 两 个 被 阻塞 的 客户 端 会 占用 一 个 服务 右 端 
的 处 理 线程 Chandler) ， 而 这 个 线程 是 一 种 十 分 稀缺 的 资 
源 。 如 果 在 一 个 频繁 操作 的 行 上 发 生 了 这 种 情况 ， 那 么 很 多 
其 他 的 客户 端 会 占用 揉 其 所 有 的 处 理 线程 ， 阻 塞 所 有 其 他 客 
户 端 访问 这 人 台 服 务 器 ， 导 致 这 个 region 服 务 器 将 不 能 为 其 负责 
的 region 内 的 行 提供 服务 。 





重申 一 下 : 在 不 必要 的 情况 下 ， 尽 量 不 要 使 用 行 锁 。 如 
果 必 须 使 用 ， 那 么 一 定 要 市 约 占用 锁 的 时 间 ! 


人 
成 : 


数 
Put(byte[] row) 


pT 


XAA PA BUMS RowLock 实例 参数 ， 所 以 服务 器 会 在 调用 期 间 
创建 一 个 锁 。 实 际 上 ， 通 过 客户 端的 API， 得 不 到 这 个 生存 期 短暂 的 服 
务 器 端的 锁 的 实例 。 


除了 服务 需 端 隐 式 加 锁 之 外 ， 客 户 端 也 可 以 显 式 地 对 单行 数据 的 多 
次 操作 进行 加 锁 ， 通 过 以 下 调用 便 可 以 做 到 : 


RowLock lockRow(byte[] row) throws IOException 
void unlockRow(RowLock rl) throws IOException 





第 一 个 调用 lockRow() 需要 一 个 行 键 作 为 参数 ， 返 回 一 个 RowLock 
的 实例 ， 这 个 实例 可 以 供 后 续 的 Put 或 者 Delete 的 构造 函数 使 用 。 一 
日 不 再 需要 锁 时 ， 必 须 通 过 unlockRow( ) 调用 来 释放 它 。 

每 一 个 排他 锁 Cunique lock，〉， 无 论 是 由 服务 占 提 供 的 ， 还 是 通过 
客户 端 API 传 入 的 ， 都 能 保护 这 一 行 不 被 其 他 锁 锁 定 。 换 句 话说 ， 锁 必 
须 针对 整个 行 ， 并 且 指 定 其 行 键 ， 一旦 它 获 得 锁定 权 就 能 防止 其 他 的 并 
发 修改 。 

当 一 个 锁 被 服务 器 端 或 客户 端 显 式 获取 之 后 ， 其 他 所 有 想 要 对 这 行 
数据 加 锁 的 客户 端 将 会 等 待 ， 直 到 当前 锁 被 释放 ， 或 者 锁 的 租 期 超时 。 
后 者 是 为 了 确保 错误 进程 不 会 占用 锁 太 长 时 间或 无 限期 占用 。 


ae 
Bos ji 
AES 默认 的 锁 超 时 时 间 是 一 分 钟 ， 但 是 可 以 在 hbase- 

site.xml 文件 中 添加 以 下 配置 项 来 修改 这 个 默认 值 ， 时 间 以 毫 


秒 为 单位 : 























< property> 
< name>hbase.regionserver.lease.period< /name> 
< value>120000< /value> 


< /property> 








通过 添加 以 上 代码 ， 超 时 时 间 被 设置 为 原来 的 两 倍 
120 秒 也 就 是 2 分 钟 。 小 心 不 要 将 这 个 值 设 得 太 大 ， 因 为 每 一 
个 想 获取 被 锁 住 的 行 的 客户 端 都 会 阻塞 并 等 待 锁 的 恢复 。 








例 3.17 展 示 了 如 何在 行 上 创建 一 个 锁 ， 该 锁 阻 塞 所 有 的 并 发 读 取 。 
例 3.17 显 式 使 用 行 锁 





static class UnlockedPut implements Runnable { @ 
@Override 
public void run() { 
try { 
HTable table = new HTable(conf,"testtable"); 
Put put = new Put(ROW1); 
put .add(COLFAM1,QUAL1,VAL3); 
long time = System.currentTimeMillis(); 
System.out.println( "Thread trying to put same row now..."); 
table.put(put);@ 
System.out.println("Wait time: " + 
(System.currentTimeMillis() - time)+ "ms"); 
} catch(IOException e)f{ 
System.err.println("Thread error: " + e); 


System.out.println( "Taking out lock..."); 
RowLock lock = table.lockRow(ROW1) ;@ 
System.out.println("Lock ID: " + lock.getLockId()); 


Thread thread = new Thread(new UnlockedPut());@ 


thread.start(); 


try { 
System.out.println("Sleeping 5secs in main()...")3;6 
Thread. sleep(50@@) ; 

} catch(InterruptedException e){ 
// ignore 


try { 
Put put1 = new Put(ROW1, lock); 
put1.add(COLFAM1,QUAL1,VAL1); 
table.put(put1) ; 


Put put2 = new Put(ROW1, lock); 
put2.add(COLFAM1,QUAL1,VAL2); 
table.put(put2) ; 
} catch(Exception e){ 
System.err.println("Error: " + e); 
} finally { 
System.out.println("Releasing lock...");e 
table.unlockRow(lock) ; 
} 








和 四 使 用 一 个 异步 的 线程 更 新 同一 个 行 ， 但 是 不 显 式 加 锁 。 
@Oput() 调用 会 阻塞 ， 直 到 锁 被 释放 。 

全 给 整 行 加 锁 。 

@@ 有 启动 那个 会 阻塞 的 异步 线程 。 

加 休眠 一 会 儿 ， 以 阻塞 其 他 写 入 操作 。 

@ 在 拥有 锁 的 情况 下 创建 Put 。 

人 @ 在 拥有 锁 的 情况 下 创建 男 外 一 个 Put 。 

全 释放 锁 ， 让 阻塞 线程 继续 执行 。 

执行 这 个 例子 代码 时 ， 应 该 能 在 控制 台 看 到 以 下 输出 : 


Taking out lock... 

Lock ID: 4751274798057238718 
Sleeping 5secs in main()... 

Thread trying to put same row now... 
Releasing lock... 

Wait time: 5007ms 


After thread ended... 

KV: row1/colfam1: qual1/1300775520118/Put/vlen=4, Value: 
KV: row1/colfam1:qual1/1300775520113/Put/vlen=4, Value: 
KV: row1/colfam1: qual1/1300775515116/Put/vlen=4, Value: 
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线程 的 。 主 线程 休眠 了 5 秒 ， 一 醒 来 加 调用 了 两 次 put() ， 分 别 将 同一 
列 设置 为 两 个 不 同 的 数值 。 


主线 程 的 锁 一 释放 ， 阻 塞 线程 的 run( ) 方法 就 继续 执行 并 调用 了 第 
三 个 put 。 观 察 put 操作 在 服务 器 端的 执行 情况 ， 会 觉得 很 有 意思 。 读 
者 可 能 注意 到 了 ，KeyValue 实例 的 时 间 惟 显示 第 三 个 put 拥有 最 小 的 
时 间 惟 ， 虽 然 这 个 put 表 面 上 是 最 后 执行 的 。 这 是 因为 线程 中 的 put() 
调用 是 在 两 个 主线 程 中 的 put() 之 前 执行 的 ， 这 之 后 主线 程 休眠 了 5 
秒 。 当 put 被 发 送 到 服务 器 时 ， 如 果 它 的 时 间 惟 没有 被 显 式 指定 ， 服 务 
器 端 会 帮 它 设 定时 间 戳 ， 同 时 试图 获得 这 一 行 的 锁 。 但 是 示例 代码 中 主 
线程 已 经 获得 了 该 行 的 锁 ， 因 此 服务 器 端的 处 理 一 直 等 待 了 5 秒 多 ， 锁 
被 释放 才 得 已 继续 。 从 上 面 的 输出 可 以 看 出 ， 主 线程 中 两 个 put 调用 的 
执行 以 及 行 的 解锁 只 花费 了 7 毫秒 的 时 间 。 














Get 需要 锁 吗 ? 





修改 行 时 锁定 行 是 有 意义 的 ， 那 么 获取 数据 时 是 否 需 
要 加 锁 呢 ? Get 类 有 一 个 构造 器 允许 用 户 指定 一 个 显 式 的 
Bi: 





Get(byte[] row,RowLock rowLock) 


这 是 遗留 的 方法 ， 但 服务 器 > 人 
因为 在 获取 数据 的 过 程 中 ， 服 务 器 根本 不 需要 任何 锁 ， 
是 应 用 了 一 个 多 版 本 的 并 发 控制 (multiversion 
concurrencycontrol-style ) 机 制 来 保证 行 级 读 操作 。 例 
如 ，get() 调用 永远 不 会 返回 写 了 一 半 的 数据 ， 比 如 当 这 
些 数据 是 男 一 个 线程 或 者 客户 端 写 的 。 





这 个 环 像 是 小 规模 的 事务 系统 : 只 有 当 一 个 变动 被 应 
用 到 整个 行 之 后 ， 客 户 症 才能 读 出 这 个 改动 。 当 改动 在 进 
行 中 时 ， 所 有 的 客户 端 读 取 操作 得 到 的 者 将 是 所 有 列 以 前 
的 状态 。 





当 用 户 试图 使 用 之 前 申请 的 显 式 锁 ， 但 锁 的 租约 已 经 超时 并 恢复 ， 
用 户 将 会 从 服务 器 得 到 一 个 以 UnknownRowLockException 形式 报告 的 
彰 误 。 这 个 异常 告诉 用 户 服务 器 已 经 废弃 了 用 户 尝 试 使 用 的 锁 。 用 户 应 
该 在 代码 中 丢弃 这 个 锁 ， 然 后 请 求 一 个 新 的 锁 再 试图 恢复 锁定 状态 。 








3.5 扫描 


在 讨论 过 基本 的 CRUD 类 型 的 操作 之 后 ， 现 在 来 看 一 下 扫描 
(scan) 技术 ， 这 种 技术 类 似 于 数据 库 系 统 中 的 游标 (cursor) ， 并 利 
用 到 了 HBase 提 供 的 底层 顺序 存储 的 数据 结构 。 


3.5.1 介绍 


扫描 操作 的 使 用 跟 get() 方法 非常 类 似 。 同 样 ， 和 其 他 函数 类 似 ， 
这 里 也 提供 了 Scan 类。 但 是 由 于 扫描 操作 的 工作 方式 类 似 于 迭 代 器 ， 
所 以 用 户 无 需 调 用 scan() 方法 创建 实例 ， 只 需 调用 HTable 的 
getScanner() 方法 ， 此 方法 在 返回 真正 的 扫 摘 器 (scanner) 实例 的 同 
时 ， 用 户 也 可 以 使 用 它 友 代 获 取 数 据 。 可 用 方法 如 下 : 





ResultScanner getScanner(Scan scan) throws IOException 
ResultScanner getScanner(byte[] family)throws IOException 
ResultScanner getScanner(byte[] family,byte[] qualifier) 


throws IOException 





后 两 个 为 了 方便 用 户 ， 隐 式 地 帮 用 户 创 建 了 一 个 Scan Sep], We 4R 
中 最 后 调用 getScanner(Scan scan) 方法 。 


Scan 类 拥有 以 下 构造 器 : 


Scan() 
Scan(byte[] startRow,Filter filter) 
Scan(byte[] startRow) 


Scan(byte[] startRow,byte[] stopRow) 








这 与 Get 类 的 不 同 点 是 显而易见 的 : 用 户 可 以 选择 性 地 提供 
startRow 人 参数， 来 定义 扫描 读 取 HBase 表 的 起 始 行 键 ， 即 行 键 不 是 必 
须 指 定 的 。 同 时 可 选 stopRow 参数 用 来 限定 读 取 到 何 处 停止 。 








oe Bh 
起 始 行 包括 在 内 ， 而 终止 行 是 不 包括 在 内 的 。 一 般 
用 区 间 表 示 法 表示 为 [startRow , stopRow ]。 








扫描 操作 有 一 个 特点 : 用 户 提供 的 参数 不 必 精 确 匹 配 这 两 行 。 扫 摘 
会 匹配 相等 或 大 于 给 定 的 起 始 行 的 行 键 。 如 果 没 有 显 式 地 指定 起 始 行 ， 
它 会 从 表 的 起 始 位 置 开始 获取 数据 。 


当 过 到 了 与 设置 的 终止 行 相同 或 大 于 终止 行 的 行 键 时 ， 扫 描 也 会 
停止 。 如 果 没 有 指定 终止 行 键 ， 会 扫描 到 表 尾 。 


男 一 个 可 选 参 数 叫 做 过 滤器 (filter ) ， 可 直接 指向 Filter 实 
例 。 尽 管 sScan 实例 通常 由 空白 构造 器 构造 ， 但 其 所 有 可 选 参数 都 有 对 
应 的 getter 方 法 和 setter 方 法 。 


创建 Scan 实例 之 后 ， 用 户 可 能 还 要 给 它 增 加 更 多 限制 条 件 。 这 种 
情况 下 ， 用 户 仍然 可 以 使 用 空白 参数 的 扫描 ， 它 可 以 读 取 整 个 表格 ， 包 
括 所 有 列 族 以 及 它们 的 所 有 列 。 可 以 用 多 种 方法 限制 所 要 读 取 的 数据 : 








Scan addFamily(byte [] family) 
Scan addColumn(byte[] family,byte[] qualifier) 





这 里 有 很 多 与 Get 类 相似 的 功能 B 方法 限制 
返回 数据 的 列 族 ， 或 者 通 sbaddcoluna() 方法 限制 返回 的 列 。 
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如 采用 户 只 需要 数据 的 子 集 ， 那 么 限制 扫描 的 范围 





就 能 发 挥 HBase 的 优势 。 因 为 HBase 中 的 数据 是 按 列 族 存 储 
的 ， 如 果 扫 描 不 读 取 东 个 列 族 ， 那 么 整个 列 族 文 件 就 都 不 会 
被 读 取 ， 这 就 是 列 式 存储 架构 的 优势 。 





Scan setTimeRange(long minStamp, long maxStamp) throws IOException 
Scan setTimeStamp(long timestamp) 
Scan setMaxVersions() 


Scan setMaxVersions(int maxVersions) 





用 户 可 以 通过 setTimestamp() 设置 详细 的 时 间 戳 ， 或 者 通过 
setTimeRange() 设置 时 间 范 围 ， 进 一 步 对 结果 进行 限制 。 还 可 以 使 
用 setMaxVersions() 方法 ， 让 扫 摘 只 返回 每 一 列 的 一 些 特 定 版 本 ， 或 
者 全 部 的 版 本 。 


Scan setStartRow(byte[] startRow) 
Scan setStopRow(byte[] stopRow) 
Scan setFilter(Filter filter) 
boolean hasFilter() 





还 可 以 使 用 setStartRow() ~ setStopRow() 以 及 setFilter() 
， 进 一 步 限 定 返 回 的 数据 。 这 3 个 方法 中 的 参数 可 以 与 构造 器 中 的 一 
样 。 附 加 的 hasFilter() 方法 可 以 检查 是 否 已 经 设 定 过 滤器 。 


还 有 一 些 相 关 的 方法 ， 见 表 3-8。 











表 3-8 Scan 类 的 其 他 方法 概览 


方法 HIR 

















getStartRow()/getStopRow() 查询 当前 设 定 的 值 





检索 Get 实例 指定 的 时 间 范 围 或 相关 时 
间 蕉 。 注 意 ， 当 需要 指定 单个 时 间 改 
getTimeRange() 时 ，API 会 在 内 部 通过 setTimestamp() 


























将 TimeRange 实例 的 起 止 时 lA BATE 
入 值 ， 所 以 Get 类 中 此 时 已 经 没 
有 getTimestamp() 方法 了 


回 当前 配置 下 应 该 从 表 中 获取 的 每 列 
版 本 数 








getMaxVersions() 


返 

的 

可 以 使 用 特定 的 过 滤器 实例 ， 通 过 多 种 

规则 来 筛选 列 和 单元 格 。 使 用 这 个 方 
getFilter() 法 ， 用 户 可 以 设 定 或 查看 scan 实例 的 过 

滤器 成 员 。 没 有 设置 的 话 则 返回 null ， 

详情 参见 4.1 节 


每 个 HBase 的 region 服 务 器 都 有 一 个 块 
缓存 ， 可 以 有 效 地 保存 最 近 访 问 过 的 数 
据 ， 并 以 此 来 加 速 之 后 相 邻 信息 的 读 

setCacheBlocks()/getCacheBlocks() 取 。 不 过 在 某 些 情况 下 ， 例 如 全 表 扫 
描 ， 最 好 能 避免 这 种 机 制 带 来 的 扰动 。 
这 个 方法 能 够 控制 本 次 读 取 的 块 缓存 机 
制 是 否 启 效 


快捷 地 获取 FamilyMap 大 小 的 方法 ， 包 
numFamilies() 括 用 addFamily() 和 addcolumn() 方法 添 
加 的 列 族 和 列 


hasFamilies() 检查 是 否 有 添加 过 列 族 或 列 


这 些 方法 能 够 让 用 户 直 接 访 问 
addFamily() 和 addcolumn() 添加 的 列 族 
IZI i 中 键 是 列 族 的 名 称 ， 
getFamilies()/setFamilyMap()/getFamilyMap() a 
Ko getFamilies() 方法 返回 一 个 只 包含 


列 族 名 的 数组 








































































































一 旦 设置 好 了 Scan 实例， 就 可 以 调用 Htable 的 getScanner() 方 
法 ， 获 得 用 于 检索 数据 的 Resultscanner 实例 。 我 们 将 在 下 一 节 中 详 


细 讨 论 这 个 类 。 
3.5.2 ResultScanner 类 


扫描 操作 不 会 通过 一 次 RPC 请 求 返 回 所 有 匹配 的 行 ， 而 是 以 行为 单 
位 进行 返回 。 很 明显 ， 行 的 数目 很 大 ， 可 能 有 上 和 干 条 甚至 更 多 ， 同 时 在 
一 次 请 求 中 发 送 大 量 数 据 ， 会 占用 大 量 的 系统 资源 并 消耗 很 长 时 间 。 


ResultScanner 把 扫描 操作 转换 为 类 似 的 get 操作 ， 它 将 每 一 行 
数据 封装 成 一 个 Result 实例 ， 并 将 所 有 的 Result 实例 放 入 一 个 迭代 器 
H, ResultScanner 的 一 些 方法 如 下 : 














Result next() throws IOException 
Result[] next(int nbRows)throws IOException 
void close() 





有 两 种 类 型 的 next() 调用 供用 户 选 择 。 调 用 close() 方法 会 释放 
所 有 由 扫描 控制 的 资源 。 





扫描 者 租约 





要 确保 尽早 释放 扫描 器 实例 ， 一 个 打开 的 扫描 器 会 占 
用 不 少 服务 端 资 源 ， 累 积 多 了 会 占用 大 量 的 堆 空 间 。 当 使 
用 完 ResultScanner 之 后 应 调用 它 的 close() 方法 ， 同 时 
应 当 把 close() 方法 放 到 try/finally 块 中 ， 以 保证 其 在 
TE RR A EP LS as RI, RETA 
47 close() 。 


注意 为 了 简洁 ， 示 例 代 码 并 未 遵循 这 个 建议 。 


就 像 行 锁 一 样 ， 扫 搬 右 也 使 用 同样 的 租约 超时 机 制 ， 
保护 其 不 极 失 效 的 客户 端 阻塞 太 久 。 用 户 可 以 使 用 修改 锁 
租约 处 提 到 的 那个 配置 属性 来 修改 超时 时 间 (单位 为 旦 
秒 ) : 





< property> 
< name>hbase.regionserver.lease.period< /name> 


< value>120000< /value> 
< /property> 


[L CR 





用 户 需要 确保 该 属性 值 适 当 ， 这 个 值 要 同时 适用 于 锁 
租约 和 扫描 器 租约 。 


next() 调用 返回 一 个 单独 的 Result 实例 ， 这 个 实例 代表 了 下 一 个 
可 用 的 行 。 此 外 ， 用 户 可 以 使 用 next(int nbRows) 一 次 获取 多 行 数 
据 ， 它 返回 一 个 数组 ， 数 组 中 包含 的 Result 实例 最 多 可 达 nbRows 个 ， 
每 个 实例 代表 唯一 的 一 行 。 当 用 户 扫 摘 到 表 尾 或 到 终止 行 时 ， 由 于 没有 
足够 的 行 来 填充 数据 ， 返 回 的 结果 数组 可 能 会 小 于 既定 长 度 。 有 关 怎 样 
使 用 Result 实例 的 问题 请 参阅 前 面 介 绍 的 “Result 类 ”， 更 详细 的 内 容 
请 参阅 3.2.2 节 。 


例 3.18 集 中 使 用 了 之 前 解释 过 的 功能 ， 扫 描 了 一 张 表 ， 逐 行 处 理 了 
其 中 的 列 数据 。 








例 3.18 ”使 用 扫描 器 获取 表 中 数据 





Scan Scan1 = new Scan();@ 

ResultScanner scanneri1 = table.getScanner(scan1);@ 

for(Result res : scanner1){ 
System.out.println(res) 56 


} 


scanner1.close();@ 


Scan scan2 = new Scan(); 

scan2.addFamily(Bytes.toBytes("colfam1"));6 

ResultScanner scanner2 = table.getScanner(scan2); 

for(Result res : scanner2){ 
System.out.println(res) ; 

} 


scanner2.close(); 


Scan scan3 = new Scan(); 

scan3.addColumn(Bytes.toBytes("colfam1") ,Bytes.toBytes("col-5")). 
addColumn(Bytes.toBytes("colfam2"),Bytes.toBytes("col-33")). © 
setStartRow(Bytes.toBytes("row-10")). 


setStopRow(Bytes.toBytes("row-20")); 
ResultScanner scanner3 = table.getScanner(scan3); 
for(Result res : scanner3){ 
System.out.printlin(res) ; 
} 


scanner3.close(); 





各 创建 一 个 空 的 Scan 实例 。 

多 取得 一 个 扫描 霹 迭 代 访 问 所 有 的 行 。 

OTTAR. 

全 关闭 扫描 器 释放 远程 资源 。 

全 只 添加 一 个 列 族 ， 这 样 可 以 禁止 获取 “colfam2” 的 数据 。 
@@ 使 用 builder 模 式 将 详细 限制 条 件 添加 到 Scan 中 。 





代码 插入 了 100 行 数据 ， 每 行 有 两 个 列 族 ， 每 个 列 族 下 包含 100 个 
列 。 第 一 个 扫描 操作 扫描 全 表 和 内容， 第 二 个 扫描 操作 只 扫描 一 个 列 族 ， 
最 后 一 个 扫描 操作 有 严格 的 限制 条 件 ， 其 中 包括 对 行 范围 的 限制 ， 同 时 
还 要 求 只 扫描 两 个 特定 的 列 。 输 出 如 下 : 





Scanning table #3... 
keyvalues={row-10/colfam1:col-5/1300803775078/Put/vlen=8, 
row-10/colfam2:col-33/1300803775099/Put/vlen=9} 
keyvalues={row-100/colfam1:col-5/1300803780079/Put/vlen=9, 
row-100/colfam2:col-33/1300803780095/Put/vlen=10} 
keyvalues={row-11/colfam1:col-5/1300803775152/Put/vlen=8, 
row-11/colfam2:col-33/1300803775170/Put/vlen=9} 
keyvalues={row-12/colfam1:col-5/1300803775212/Put/vlen=8, 
row-12/colfam2:col-33/1300803775246/Put/vlen=9} 
keyvalues={row-13/colfam1:col-5/1300803775345/Put/vlen=8, 
row-13/colfam2:col-33/1300803775376/Put/vlen=9} 
keyvalues={row-14/colfam1:col-5/1300803775479/Put/vlen=8, 
row-14/colfam2:col-33/1300803775498/Put/vlen=9} 
keyvalues={row-15/colfam1:col-5/1300803775554/Put/vlen=8, 
row-15/colfam2:col-33/1300803775582/Put/vlen=9} 
keyvalues={row-16/colfam1:col-5/1300803775665/Put/vlen=8, 


row-16/colfam2:col-33/1300803775687/Put/vlen=9} 
keyvalues={row-17/colfam1:col-5/1300803775734/Put/vlen=8, 
row-17/colfam2:col-33/1300803775748/Put/vlen=9} 
keyvalues={row-18/colfam1:col-5/1300803775791/Put/vlen=8, 
row-18/colfam2:col-33/1300803775805/Put/vlen=9} 
keyvalues={row-19/colfam1:col-5/1300803775843/Put/vlen=8, 
row-19/colfam2:col-33/1300803775859/Put/vlen=9} 
keyvalues={row-2/colfam1:col-5/1300803774463/Put/vlen=7, 
row-2/colfam2: col-33/1300803774485/Put/vlen=8} 





再 强调 一 次 ， 匹 配 的 行 键 都 是 按 词 典 序 排 列 的， 这 使 得 结果 非常 有 
趣 。 用 户 可 以 简单 地 用 0 把 行 键 补 齐 ， 这 样 扫 摘出 来 结果 顺序 更 有 可 读 





性 。 这 些 都 是 在 你 的 控制 下 完成 的 ， 所 以 请 仔细 设计 行 键 。 
3.5.3 ”缓存 与 批量 处 理 


到 目前 为 止 ， 每 一 个 next() 调用 都 会 为 每 行 数据 生成 一 个 单独 的 
RPC 请 求 ， 即 使 使 用 next(int nbRows) 方法 ， 也 是 如 此 ， 因 为 该 方法 
仅仅 是 在 客户 端 循环 地 调用 next () 方法 。 很 显然 ， 当 单元 格 数据 较 小 
时 ， 这 样 做 的 性 能 不 会 很 好 《参见 3.2.1 节 中 “客户 端的 写 缓 冲 区 ”的 讨 
W) 。 因 此 ， 如 果 一 次 RPC 请 求 可 以 获取 多 行 数 据 ， 这 样 会 更 有 意义 。 
这 样 的 方法 可 以 由 扫描 器 缓存 (scanner caching) 实现 ， 默 认 情 况 下 ， 
这 个 缓存 是 关闭 的 。 


可 以 在 两 个 层面 上 打开 它 : 在 表 的 层面 ， 这 个 表 所 有 扫描 实例 的 组 
存 都 会 生效 ， 也 可 以 在 扫描 层面 ， 这 样 便 只 会 影响 当前 的 扫描 实例 。 用 
户 可 以 使 用 以 下 的 HTable 方法 设置 表 级 的 扫描 霹 绥 存 : 











void setScannerCaching(int scannerCaching) 
int getScannerCaching() 








ye 
tt 上 
一 一 全 用 户 可 以 修改 整个 HBase 集 群 的 默认 值 1。 只 要 把 下 
面 的 配置 项 添加 到 hbase-site.xml 中 即 可 : 


< property> 
< name>hbase.client.scanner.caching< /name> 
< value>1@< /value> 


< /property> 





这 样 所 有 Scan 实例 的 扫描 器 缓存 大 小 就 都 被 设置 为 10 
了 。 用 户 还 可 以 从 表 或 扫描 两 个 层面 覆盖 默认 配置 ， 但 是 需 
要 明确 这 样 做 的 目的 。 





setScannerCaching() 可 以 设置 缓存 大 
小 ，getScannerCaching() 可 以 返回 当前 缓存 大 小 的 值 。 每 次 用 户 调 
用 getscanner(scan) 之 后 ，API 都 会 把 设 定 值 配置 到 扫描 实例 中 
除非 用 户 使 用 了 扫 摘 层面 的 配置 并 履 盖 了 表层 面 的 配置 ， 扫 描 层 面 的 配 
置 优 先 级 最 高 。 可 以 使 用 下 列 Scan 类 的 方法 设置 扫描 级 的 缓存 : 














void setCaching(int caching) 
int getCaching() 





这 两 个 方法 的 作用 和 表层 面 的 方法 一 样 ， 能 控制 每 次 RPC 调 用 取 回 
的 行 数 。 两 种 next () 方法 都 会 受 这 些 配置 影响 。 


用 户 需 要 为 少量 的 RPC 请 求 次 数 和 客户 端 以 及 服务 器 端的 内 存 消耗 
找到 平衡 点 。 很 多 时 候 ， 将 扫描 器 缓存 设 得 比较 高 能 提高 扫描 的 性 能 ， 
不 过 设 得 太 高 就 会 产生 不 良 影响 : 每 次 next() 调用 将 会 呆 用 更 长 的 时 
间 ， 因 为 要 获取 更 多 的 文件 并 传输 到 客户 端 ， 如 果 返 回 给 客户 端的 数据 
超出 了 其 扒 的 大 小 ， 程 序 就 会 终止 并 抛 出 OutOfMemoryException 7 
T o 








| 

-> 

一 当 传 输 和 处 理 数据 的 时 间 超过 配置 的 扫描 器 租约 超 
时 时 | 则 时 ， 用 户 将 会 收 到 一 个 以 ScannerTimeoutException 


形式 抛 出 的 租约 过 期 (lease expired) 错误 。 


例 3.19 展 示 了 扫 摘 器 超时 的 情况 
例 3.19 ”使 用 扫描 费时 超时 





Scan scan = new Scan(); 
ResultScanner scanner = table.getScanner(scan) ; 


int scannerTimeout =(int)conf.getLong( 
HConstants.HBASE_REGIONSERVER_LEASE PERIOD _KEY,-1);@ 
try { 
Thread.sleep(scannerTimeout + 5000); 
} catch(InterruptedException e){ 
// ignore 


} 


while(true){ 
try { 
Result result = scanner.next(); 
if(result == null)break; 
System.out.println(result) 56 
} catch(Exception e){ 
e.printStackTrace(); 
break; 


scanner.close(); 





@@ 得 到 当前 配置 的 租约 超时 时 间 。 

全 休眠 的 时 间 比 租约 超时 时 间 再 长 一 点 。 

全 打印 行 的 内 容 。 

这 段 代 人 码 得 到 当前 配置 的 租约 时 间 ， 体 眠 了 比 这 个 时 间 更 长 的 时 


间 ， 然 后 服务 器 并 感知 租约 超时 并 触发 租约 恢复 操作 。 控 制 台 输出 的 结 
果 与 如 下 结果 类 似 〈( 为 了 方便 阅读 做 了 精简 〉: 








Adding rows to table... 
Current(local)lease period: 60000 
Sleeping now for 65666ms . . . 
Attempting to iterate over scanner... 
Exception in thread "main" java.lang.RuntimeException: 
org.apache.hadoop.hbase.client.ScannerTimeoutException: 65094ms passed 
since the last invocation,timeout is currently set to 60000 
at org.apache.hadoop.hbase.client.HTable$ClientScanner$1.hasNext 
at ScanTimeoutExample.main 
Caused by: org.apache.hadoop.hbase.client.ScannerTimeoutException: 65094ms 
passed since the last invocation,timeout is currently set to 60000 
at org.apache.hadoop.hbase.client.HTable$ClientScanner.next 
at org.apache.hadoop.hbase.client.HTable$ClientScanner$1.hasNext 
. 1 more 
Caused by: org.apache.hadoop.hbase.UnknownScannerException: 


org.apache.hadoop.hbase.UnknownScannerException: Name: -31505840635447 
2427 


at org.apache.hadoop.hbase.regionserver.HRegionServer .next 
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取 扫 摘 强 提供 的 行 。 由 于 租约 超时 ， 这 个 操作 触发 服务 器 端 超 时 寞 第， 
同时 返回 的 异 第 信息 中 还 包括 了 当前 配置 的 超时 时 间 。 
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"用户 可 能 会 尝试 向 配置 中 添加 如 下 信息 : 


Configuration conf = HBaseConfiguration.create() 
conf.setLong(HConstants.HBASE_REGIONSERVER_LEASE_PERIOD_KEY, 120000) 





假设 这 个 修改 把 超时 时 间 延 长 了 《在 这 个 例子 里 ， 延 长 
到 了 2 分 钟 ) 。 由 于 这 个 值 是 在 客户 端 应 用 中 配置 的 ， 不 会 被 
传递 到 远程 region 服 务 器 ， 所 以 这 样 的 修改 是 无 效 的 。 





如 果 用 户 要 修改 之 前 讨论 的 超时 时 间 ， 用 户 必 须 修改 服 
Savin 〈region 服 务 器 ) 的 配置 文件 hbpase-site.xml ， 修 改 完 之 
后 别 筷 了 重 局 服务 器 使 配置 生效 ! 





从 上 面 打 印 出 的 堆栈 追踪 信息 中 还 可 以 看 
出 : ScannerTimeoutException 异常 是 如 何 包 装 
f£UnknownScannerException 异常 的 外 面 抛 出 的 。 以 上 信息 表明 扫描 
器 的 next() 方法 使 用 扫描 占 ID 在 服务 器 端 查 找 已 经 建立 的 扫描 右 ， 但 
由 于 这 个 扫描 器 耳 的 租约 超时 ， 已 经 被 删除 了 。 换 句 话 说， 客户 端 组 
存 的 扫描 器 ID 在 region 服 务 器 上 已 经 查找 不 到 了 ， 这 与 这 个 异常 名 称 所 
表达 的 含义 相符 。 


到 目前 为 止 ， 我 们 已 经 介绍 了 如 何 使 用 客户 端的 扫描 器 缓存 来 从 远 
程 region 服 务 器 同 客 户 端 整 批 传输 数据 。 不 过 还 有 之 前 提 到 过 的 一 件 事 
需要 注意 : 数据 量 非常 大 的 行 ， 这 些 行 有 可 能 超过 客户 端 进程 的 内 存 容 
量 。HBase 和 它 的 客户 问 API 对 这 个 问题 有 一 个 解决 方法 : 批量 。 用 户 





可 以 使 用 以 下 方法 控制 批量 获取 操作 : 


void setBatch(int batch) 
int getBatch() 








绥 存 是 面向 行 一 级 的 操作 ， 而 批量 则 是 面向 列 一 级 的 操作 。 批 量 可 
以 让 用 户 选 择 每 一 次 ResultScanner 实例 的 next() 操作 要 取 回 多 少 
列 。 例 如 ， 在 扫描 中 设置 setBatch(5) ， 则 一 次 next() 返回 的 Result 
实例 会 包括 5 列 。 








WA 


rye 
如 果 一 行 包 括 的 列 数 超过 了 批量 中 设置 的 值 ， 则 可 
以 将 这 一 行 分 片 ， 每 次 next 操作 返回 一 片 。 





当 一 行 的 列 数 不 能 被 批量 中 设置 的 值 整除 时 ， 最 后 一 次 
返回 的 Result 实例 会 包含 比较 少 的 列 ， 例 如 ， 如 果 一 行 有 17 
列 ， 用 户 把 batch 值 设 为 5， 则 一 共 会 返回 4 个 Result 实例 ， 
这 4 个 实例 中 包括 的 列 数 应 当 分 别 为 5、5、5 和 2。 





组 合 使 用 扫描 器 缓存 和 批量 大 小 ， 可 以 让 用 户 方 便 地 控制 扫描 一 个 
范围 内 的 行 键 时 所 需要 的 RPC 调 用 次 数 。 例 3.20 为 了 控制 RPC 请 求 的 次 
数 ， 使 用 了 这 两 个 参数 来 调节 每 次 Result 实例 的 大 小 。 


例 3.20 在 扫描 中 使 用 缓存 和 批量 参数 





private static void scan(int caching,int batch)throws IOException { 
Logger log = Logger.getLogger("org.apache.hadoop”" ) ; 
final int[] counters = {0,0}; 
Appender appender = new AppenderSkeleton() { 


@Override 
protected void append(LoggingEvent event) { 
String msg = event.getMessage().toString(); 
if(msg != null && msg.contains("Call: next")){ 
counters[@]++; 
} 
} 


@Override 

public void close() {} 

@Override 

public boolean requiresLayout() { 

return false; 

} 
}3 
log.removeAllAppenders(); 
log.setAdditivity(false) ; 
log.addAppender (appender) ; 
log.setLevel(Level.DEBUG) ; 


Scan scan = new Scan(); 

scan.setCaching(caching); @ 

scan.setBatch(batch) ; 

ResultScanner scanner = table.getScanner(scan) ; 

for(Result result : scanner){ 
counters[1]++;@ 

} 

scanner.close(); 

System.out.println("Caching: 
"Results: ”+ counters[1] + ",RPCs: 


+ caching + ",Batch: + batch + 
" + counters[@]); 


} 


public static void main(String[] args) throws IOException { 

scan(1,1); 

scan(20@,1); 

scan( 2000, 100) ;9 

scan(2,10@) ; 

scan(2,10@); 

scan(5,10@) ; 

scan(5, 20); 

scan(10,10@); 





和 加 设置 缓存 和 批量 处 理 两 个 参数 。 


四 对 返回 的 Result 实例 计数 。 
合用 不 同 的 参数 组 合 测试 。 


代码 打印 出 了 这 两 个 参数 的 值 、 服 务 器 返回 的 Result 实例 数目 以 
及 获取 数据 过 程 所 发 起 的 RPC 请 求 的 数目 。 结 果 如 下 : 


Caching: 1,Batch: 1,Results: 20@,RPCs: 201 
Caching: 20@,Batch: 1,Results: 20@,RPCs: 2 
Caching: 20@@,Batch: 100,Results: 10,RPCs: 1 
Caching: 2,Batch: 10@,Results: 10,RPCs: 6 
Caching: 2,Batch: 10,Results: 20,RPCs: 11 


Caching: 5,Batch: 100,Results: 10,RPCs: 3 
Caching: 5,Batch: 20,Results: 10,RPCs: 3 
Caching: 10,Batch: 10,Results: 20,RPCs: 3 








用 户 可 以 修改 调整 这 两 个 参数 来 查看 它们 对 输出 结果 的 影响 。 表 3- 
9 展示 了 一 些 组 合 。 这 些 组 合 与 例 3.20 相 关 ， 例 3.20 中 我 们 建立 了 一 张 有 
两 个 列 族 的 表 ， 添 加 了 10 行 数据 ， 每 个 行 的 每 个 列 族 下 有 10 列 。 这 意味 
着 整个 表 一 共有 200 列 〈 或 单元 格 ， 因 为 每 个 列 只 有 一 个 版 本 ) ， 其 中 
每 行 有 20 列 。 





表 3-9 示例 设置 及 其 影响 


9 ren ais 
200 200 — 实例 都 只 包含 一 列 的 值 ， 不 过 它们 都 被 一 次 RPC 
请 求 取 回 〈 加 一 次 完成 检查 ) 


批量 参数 是 一 行 所 包含 的 列 数 的 一 半 ， 所 以 200 列 除 以 10， 
2 |10 |20 11 “| 需要 20 个 Result 实例 。 同 时 需要 10 次 RPC 请 求 取 回 〈 加 一 次 
完成 检查 ) 


对 于 一 行 来 讲 ， 这 个 批量 参数 太 大 了 ， 所 以 一 行 的 20 列 都 被 
5 |100|10 3 放 入 了 一 个 Result 实例 中 。 同 时 缓存 为 5， 所 以 10 个 Result 
实例 被 两 次 RPC 请 求 取 回 〈 加 一 次 完成 检查 ) 


同上 ， 不 过 这 次 的 批量 值 与 一 行 的 列 数 正好 相同 ， 所 以 输出 














































































































5 |20 |10 3 与 上 面 一 种 情况 相同 
这 次 把 表 分 成 了 较 小 的 Result 实例 ， 但 使 用 了 较 大 的 缓存 


tej 





值 ， 所 以 也 是 只 用 了 两 次 RPC 请 求 就 取 回 了 数据 











S 要 计算 一 次 扫描 操作 的 RPC 请 求 的 次 数 ， 用 户 需 
先 计算 出 行 数 和 每 行列 数 的 乘积“ 至 少 了 解 大 概 情况 ) 。 然 
后 用 这 个 值 除 以 批量 大 小 和 每 行列 数 中 较 小 的 那个 值 。 最 后 
再 用 除 得 的 结果 除 以 扫描 器 缓存 值 。 用 数学 公式 表示 如 下 : 


RPC 请 求 的 次 数 =《〈 行 数 x 每 行 的 列 数 ) / 
Min 每 行 的 列 数 ， 批 量 大 小 ) /扫描 器 缓存 > 


此 外 ， 还 需要 一 些 请 求 来 打开 和 关闭 扫描 器 。 用 户 或 许 
要 把 这 两 次 请 求 也 考虑 在 内 。 





图 3-2 展 示 了 绥 存 和 批量 两 个 参数 如 何 联动 。 图 3-2 中 有 一 个 包含 9 行 
数据 的 表 ， 每 行 都 包含 一 些 列 。 使 用 了 一 个 缓存 为 6、 批 量 大 小 为 3 的 扫 
le 读者 可 以 观察 到 需要 3 个 PRC 请 求 来 传送 数据 (虚线 圆 角 方 
E) 





HBase 表 





图 3-2 扫描 器 缓存 和 批量 两 个 参数 控制 RPC 的 次 数 


小 的 批量 值 使 服务 端 把 3 个 列 装 入 一 个 Result 实例 ， 同 时 扫描 器 组 
存 为 6， 使 每 次 RPC 请 求 传输 6 行 ， 即 6 个 被 批量 封装 的 Result 实例 。 如 
果 没 有 指定 批量 大 小 ， 但 指定 了 扫描 器 缓存 ， 那 么 一 个 调用 结果 就 能 
含 所 有 的 行 ， 因 为 每 一 行 都 包含 在 一 个 Result 实例 中 。 只 有 当 用 户 使 
用 批量 模式 之 后 ， 行 内 Gntra-row) 扫描 功能 才 会 启用 。 


最 初 ， 用 户 可 能 不 必 为 扫描 霹 缓 在 和 批量 模式 的 使 用 操心 ， 但 当 用 
户 想 尽量 提高 和 利用 系统 性 能 时 ， 可 能 就 需要 为 这 两 个 参数 选择 一 个 合 
适 的 组 合 了 。 








3.6 ”各 种 特性 


在 深入 介绍 客户 并 可 以 利用 的 特性 之 前 ， 让 我 们 先 介 绍 一 下 HBase 
和 其 客户 端 API 提 供 的 各 种 特性 或 功能 。 


3.6.1 HTable 的 实用 方法 
客户 端 API 是 由 HTable 类 的 实例 提供 的 ， 用 户 可 以 用 它 来 操作 


HBase 表 。 除 了 之 前 提 到 过 的 一 些 主要 特性 外 ， 还 有 以 下 一 些 值得 注意 
的 方法 。 





void close() 





这 个 方法 之 前 提 到 过 ， 不 过 为 了 它 的 完整 性 和 重要 性 ， 我 们 在 这 儿 
要 重新 讨论 一 下 。 用 户 使 用 完 一 个 HTable 实例 之 后 ， 需 要 调用 一 
次 close() 。 这 个 方法 会 刷 写 所 有 客户 端 缓冲 的 写 操作 : close() 方法 
会 隐 式 调用 flushCache( ) 方法 。 





byte[] getTableName() 





这 是 一 个 获取 表 名 称 的 快捷 方法 。 


Configuration getConfiguration() 





这 个 方法 允许 用 户 访问 HTable 实例 中 使 用 的 配置 。 因 为 得 到 的 
xeConfiguration 实例 的 引用 ， 所 以 用 尸 修改 的 参数 〈 针 对 客户 端 
的 ) 都 会 立即 生效 。 


HTableDescriptor getTableDescriptor() 


| 


这 个 方法 会 在 5.1.1 节 进行 详细 介绍 ， 每 个 表 都 使 用 一 
个 HTableDescriptor 实例 来 定义 目 己 的 表 结 构 。 用 户 可 以 使 用 这 个 方 
法 访问 这 个 表 的 底层 结构 定义 。 











static boolean isTableEnabled(table) 








HTable 类 有 4 个 不 同 的 静态 辅助 方法 ， 它 们 都 需要 一 个 显 式 的 配置 
和 一 个 表 名 。 如 果 没 有 提供 显 式 的 配置 ， 方 法 会 找到 classpath 下 的 配置 
文件 ， 使 用 默认 值 创 建 一 个 隐 式 的 配置 。 这 个 方法 可 以 检查 表 在 
ZooKeeper 中 是 否 被 标志 为 局 用。 


byte[][] getStartKeys() 
byte[][] getEndKeys() 
Pair< byte[][], byte[][]> getStartEndKeys() 





这 些 方法 让 用 户 可 以 查看 当前 表 的 物理 分 布 情况 ， 不 过 这 个 分 布 很 
可 能 在 添加 一 些 数据 之 后 发 生变 化 。 这 些 方 法 返回 了 表 的 所 有 region 的 
起 始 行 键 或 /和 终止 行 键 。 它 们 以 二 维 字 节 数组 形式 返回 ， 用 户 可 以 使 
用 Bytes .toSstringBinary() 方法 打印 这 些 键 。 


void clearRegionCache() 
HRegionLocation getRegionLocation(row) 
Map< HRegionInfo, HServerAddress> getRegionsInfo() 








这 些 方法 可 以 帮助 用 户 获 取 某 一 行 数据 的 具体 位 置信 息 ， 或 者 说 这 
行 数 据 所 在 的 region 信 息 ， 以 及 所 有 region 的 分 布 信 息 。 用 户 也 可 以 在 必 
要 的 时 候 清 空 缓存 的 region 位 置信 息 。 这 些 方法 可 以 让 高 级 用 户 了 解 并 


使 用 这 些 信息 ， 例 如 ， 控 制 集群 流量 或 者 调整 数据 的 位 置 。 


void prewarmRegionCache(Map< HRegionInfo, HServerAddress> regionMap) 
static void setRegionCachePrefetch(table, enable) 
static boolean getRegionCachePrefetch(table) 








这 又 是 一 组 高 级 方法 。 在 1.4.5 节 提 到 过 ， 可 以 先 预 取 region 位 置信 
恩 来 避免 耗 时 较 多 的 操作 (查找 每 行 数据 所 属 region 地 址 直到 本 地 region 
地 址 缓存 相对 稳定 )。 使 用 这 些 方法 ， 用 户 可 以 先 获取 一 个 region 的 信 
恩 表 来 预 热 一 下 region 绥 存 〈 例 如 ， 用 户 可 以 使 用 getRegionsInfo() 
访问 这 个 region 的 信息 表 ， 然后 再 处 理 它 ) ， 也 可 以 把 整 张 表 的 预 取 功 





3.6.2 Bytes 类 

前 面 介绍 过 ， 如 何 使 用 这 个 类 转化 Java 的 数据 类 型 ， 例 如 ， 
将 String long 转化 为 HBase 原 生 文 持 的 原始 字 节 数组 。 关 于 这 个 类 
和 它 的 功能 还 有 一 些 值得 一 提 。 


大 部 分 方法 都 有 3 种 形式 ， 例 如 : 








static long toLong(byte[] bytes) 
static long toLong(byte[] bytes,int offset) 
static long toLong(byte[] bytes,int offset,int length) 
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或 者 一 个 字 节 数组 、 一 个 偏 移 值 和 一 个 长 度 值 。 具 体 使 用 哪 一 种 方法 取 
决 于 最 初 这 个 字 市 数组 是 怎么 生成 的 。 如 果 这 个 字 市 数组 之 前 是 
由 toBytes() 方法 生成 的 ， 用 户 束 可 以 安全 地 使 用 第 一 种 形式 的 方法 将 
其 转化 回来 ， 只 需 送 入 这 个 字 节 数组 而 不 需要 其 他 额外 信息 。 整 个 数组 
的 内 容 都 是 转换 过 来 的 值 。 


不 过 ，API 和 HBase 内 部 都 把 数据 存储 为 一 个 较 大 的 数组 ， 例 如 ， 








使 用 下 面 的 方法 : 


static int putLong(byte[] bytes,int offset,long val) 





这 个 方法 允许 用 户 把 一 个 long 值 写 入 一 个 字 节 数组 的 特定 偏 移 位 
置 。 用 户 可 以 使 用 后 面 的 两 种 toLong() 方法 存 取 这 种 较 大 的 字 节 数组 
的 数据 。 

Bytes 类 文 持 以 下 原生 Java 类 型 到 字 节 数组 的 互 转 : String 
、boolean 、short 、int 、long 、double 和 float 。 除 了 之 前 介绍 
的 方法 外 ， 还 有 一 些 值得 一 提 的 方法 列举 在 表 3-10 中 。 


423-10 Bytes 类 提供 的 其 他 方法 概述 








与 tostring() 方法 非常 相似 ， 这 个 方法 可 以 安全 地 把 不 能 打印 
bostrinasinary() | 的 信息 转换 为 人 工 可 读 的 十 六 进 制 数 。 如 果 用 户 不 清楚 字 节 数 
inary() | 组 中 的 内 容 ， 就 可 以 使 用 这 个 方法 把 内 容 打印 出 来 ， 比 如 打印 

到 控制 台 或 日 志文 件 中 


这 个 方法 让 用 户 可 以 对 两 个 byte[] 《〈 即 字 节 数组 ) 进行 比较 。 
compareTo()/equals() | 前 者 返回 一 个 比较 结果 ， 后 者 返回 一 个 布尔 值 ， 表 示 两 个 数组 






































是 否 相等 


add) /head()/tail() | 用 这 些 方法 可 以 把 两 个 字 节 数 组 连接 在 一 起 形成 一 个 新 的 数 

明 ， 或 者 可 以 取 到 字 节 数组 头 或 尾 的 一 部 分 

POENT 在 用 户 给 定 的 字 节 数组 中 二 分 查找 一 个 目标 值 ， 该 方法 可 以 在 
4 字 节 数组 上 对 用 户 要 查找 的 值 和 键 进行 操作 

i 一 个 long 类 型 数据 转化 成 的 字 节 数组 与 1ong 的 数据 相 加 并 返回 
y 字 节 数组 ， 用 户 可 以 使 用 负数 参数 进行 减法 
























































Bytes 类 与 Java 提 供 的 ByteBuffer 类 的 功能 有 所 重修。 不 同 的 
是 ， 前 者 所 有 的 操作 都 不 需要 创建 一 个 新 的 实例 。 这 是 考虑 到 某 些 情况 
下 的 性 能 优化 ， 因 为 HBase 内 部 使 用 了 其 中 的 许多 方法 并 多 次 调用 ， 不 
创建 实例 也 就 避免 了 许多 不 必要 的 垃圾 回收 。 


完整 的 文档 请 参阅 基于 JavaDoc 的 API 文 档 昌 。 








O region 服 务 器 采用 了 一 种 多 版 本 并 发 控制 机 制 ， 有 具体 实现 
fEReadWriteConsistencyControl 〈 简 称 为 RWCC) 类 中 。 这 种 机 制 
保证 了 读 程 序 读 取 数 据 时 可 以 不 用 等 待 写 程序 完成 写 操作 。 写 程序 则 需 
要 等 待 其 他 写 程序 完成 写 操作 之 后 才能 继续 执行 。 


(2) 全 局 唯一 标识 符 (Universally Unique Identifier) 细节 请 参阅 
http://en.wikipedia.org/wiki/Universally_unique_identifier 。 











© 见 维基 百科 的 “Unix time” ( http://en.wikipedia.org/wiki/Unix_epoch 
J 


4) 完整 的 描述 请 参阅 API 文 档 中 KeyValue 类 的 介绍 《 
http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/KeyValue.html 
la 


© 参见 维基 百科 的 “Remote procedure call” ( 
http://en.wikipedia.org/wiki/Remote_procedure_call ) 。 


© 为 了 方便 阅读 ， 相 关 细 节 被 分 为 多 组 ， 组 之 间 用 空 行 隔 开 。 
@) 见 链接 http://en.wikipedia.org/wiki/Multiversion_concurrency_control 。 


© 扫描 操作 与 不 可 回 滚 的 游标 操作 相似 。 用 户 需 要 先 声 明 ， 然 后 打 

开 ， 并 获取 数据 ， 最 后 关闭 数据 库 游 标 。 不 过 扫 摘 操 作 没 有 声明 这 一 

eee 法 就 是 一 样 的 了 。 参 见 维基 百科 
‘JCursors o 


© 参阅 在 线 文 档 Bytes 一 节 ( 
http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/util/Bytes/html 
Va 


PAR FP APL: 高 级 特性 


在 了 解 HBase 的 基本 客户 端 API 之 后 ， 我 们 将 进一步 讨论 HBase 提 供 
给 客户 端的 高 级 特性 。 


4.1 过 滤器 


HBase 过 滤 吉 (filter) 提供 了 非常 强大 的 特性 来 帮助 用 户 提高 其 处 
理 表 中 数据 的 效率 。 用 户 不 仅 可 以 使 用 HBase 中 预定 义 好 的 过 滤器 ， 而 
且 可 以 实现 自 定 义 的 过 滤 囊 。 下 面 将 介绍 这 两 类 过 小强 。 


4.1.1 过 滤器 简介 


HBase 中 两 种 主要 的 数据 读 取 函数 是 get() 和 scan() ， 它 们 都 支 
持 直 接 访 问 数 据 和 通过 指定 起 止 行 键 访问 数据 的 功能 。 读 者 可 以 在 查询 
中 添加 更 多 的 限制 条 件 来 减少 查询 得 到 的 数据 量 ， 这 些 限制 可 以 是 指定 
列 族 、 列 、 时 间 惟 以 及 版 本 号 。 


这 些 方 法 可 以 帮助 用 户 控制 哪些 数据 在 查询 时 被 包含 其 中 ， 但 是 它 
们 缺少 一 些 细 粒度 的 筛选 功能 ， 比 如 基于 正则 表达 式 对 行 键 或 值 进行 算 
o Get 和 Scan 两 个 类 都 支持 过 小 占 ， 理 由 如 下 : 这 类 对 象 提供 的 基 
本 API 不 能 对 行 键 、 列 名 或 列 值 进行 过 滤 ， 但 是 通过 过 滤器 可 以 达到 这 
个 目的 。 过 滤器 最 基本 的 接口 叫 Filter ， 除 此 之 外 ， 还 有 一 些 由 
HBase 提 供 的 无 裔 编程 就 可 以 直接 使 用 的 类 。 


同时 用 户 还 可 以 通过 继承 Filter 类 来 实现 自己 的 需求 。 所 有 的 过 
滤 右 都 在 服务 端 生 效 ， 叫 做 谓词 下 推 (predicate push down) 。 这 样 可 
以 保证 被 过 滤 抒 的 数据 不 会 被 传送 到 客户 端 。 用 户 可 以 在 客户 端 代码 中 
实现 过 小 的 功能 (但 会 影响 系统 性 能 ) ， 因 为 在 这 种 情况 下 服务 器 端 需 
要 传输 更 多 的 数据 到 客户 端 ， 用 户 应 当 尽 量 避 免 这 种 情况 。 


图 4-1 描 述 了 过 滤器 怎样 在 客户 端 进行 配置 ， 怎 样 在 网 络 传输 中 科 
序列 化 ， 怎 样 在 服务 器 端 执 行 。 














Client 


1. 客户 端 创建 Scan 过 滤器 


can 
Filter ter 


Store Store Store tore Store Store 
Scanner} | Scanner Scanner} | Scanner Scanner} | Scanner 
Region Scanner RegionScanner RegionScanner RegionScanner 


R rye 5 _ 
3. RegionServer 使 用 过 滤器 对 Scan 进行 序列 化 ， 并 同时 使 用 Scan 和 内 部 的 扫描 器 





图 4-1 过 滤器 在 客户 端 创建 ， 通 过 RPC 传 送 到 服务 器 端 ， 然 后 在 服务 器 端 执行 过 滤 操 作 
1. 过 滤器 层次 结构 

在 过 滤器 层次 结构 的 最 底层 是 Filter 接口 和 FilterBase 抽象 
类 ， 它 们 实现 了 过 滤器 的 空 壳 和 骨架 ， 这 使 得 实际 的 过 滤器 类 可 以 避免 
许多 重复 的 结构 代码 。 

大 部 分 实体 过 滤器 类 一 般 都 直接 继承 自 FilterBase ， 也 有 一 些 间 


接 继承 自 该 类 。 不 过 它们 的 使 用 流程 是 相同 的 ， 用 户 定义 一 个 所 需要 的 
过 小 絮 实例 ， 同 时 把 定义 好 的 过 滤 右 实例 传递 给 Get 或 scan 实例 : 











setFilter(filter) 





在 实例 化 过 滤器 的 时 候 ， 用 户 需要 提供 一 些 参数 来 设 定 过 滤 右 的 用 
途 。 其 中 有 一 组 特殊 的 过 小 器， 它们 继承 自 CompareFilter ， 需 要 用 
户 同 时 提供 至 少 两 个 特定 的 参数 ， 这 两 个 参数 会 被 基 类 用 于 执行 它 的 任 
务 。 下 面 用 户 会 学 习 到 这 两 个 参数 的 类 型 以 方便 使 用 。 


Wa 
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”过 滤器 可 以 作用 于 用 户 插入 的 整 行 数 据 ， 所 以 用 户 
可 以 基于 任意 可 用 的 信息 来 决定 如 何 处 理 这 一 行 。 这 些 信息 
包括 行 键 、 列 名 、 实 际 的 列 值 和 时 间 戳 等 。 








我 们 将 简短 讨论 下 涉及 值 或 者 比较 这 两 种 情况 ， 下 面 介 
绍 的 各 种 方法 都 可 以 使 用 。 特 定 过 滤器 的 实现 可 能 只 考虑 了 
其 中 一 条 标准 。 


2. 比较 运算 符 


因为 继承 自 CompareFilter 的 过 小 器 比 基 类 FilterBase 多 了 一 
个 compare( ) 方法 ， 它 需要 使 用 传 入 参数 定义 比较 操作 的 过 程 。 可 用 值 
己 经 列 在 表 4-1 中 。 





表 4-1 CompareFilter 中 的 比较 运算 符 


























GREATER 匹配 大 于 设 定 值 的 值 





当 过 小 器 被 应 用 时 ， 比 较 运算 符 可 以 决定 什么 被 包含 ， 什 么 被 排 
除 。 这 样 可 以 帮助 用 户 筛选 数据 的 一 段子 集 或 一 些 特定 数据 。 


3. 比较 器 











CompareFilter 所 需要 的 第 二 类 类 型 是 比较 器 (comparator) , 
比较 器 提供 了 多 种 方法 来 比较 不 同 的 键 值 。 比 较 堪 都 继承 目 
WritableByteArrayComparable , WritableByteArrayComparable 
实现 了 Writable 和 Comparable 接口 。 如 果 您 仅仅 想 使 用 HBase 原 生 提 
供 的 比较 器 实现 则 可 以 不 必 过 度 关 注 细节 ，HBase 提 供 的 比较 器 罗列 于 
表 4-2， 这 些 比较 露 构造 时 通 音 只 需要 提供 一 个 闭 值 ， 这 个 值 将 会 与 表 
中 的 实际 值 进行 比较 。 


表 4-2 HBase 对 基于 CompareFilter 的 过 滤器 提供 的 比较 器 


比较 器 


BinaryComparator 使 用 Bytes. compareTo() 比较 当前 值 与 阀 值 

















与 上 面 的 相似 ， 使 用 Bytes .compareTo() 进行 匹配 ， 但 是 是 从 
左 端 开始 前 级 匹配 








BinaryPrefixComparator 








不 做 匹配 ， 只 判断 当前 值 是 不 是 nul1 


通过 Bitwiseop 类 提供 的 按 位 与 Cann) 、 或 Cor) 、 异 或 
(xoR ) 操作 执行 位 级 比较 


BitComparator 








根据 一 个 正则 表达 式 ， 在 实例 化 这 个 比较 器 的 时 候 去 匹配 表 


RegexStringComparator 中 的 数据 




















SubstringComparator 把 阔 值 和 表 中 数据 当 作 string 实例 ， 同 时 通过 contains() 操 
作 匹 配 字 符 串 




















#3. 
rs 
一 人 后 面 的 3 种 比较 器 ， 即 BitComparator 

~ RegexStringComparator 和 SubstringComparator ， 只 
能 与 EQUAL 和 NOT _EQUAL 运算 符 搭 配 使 用 ， 因 为 这 些 比 较 右 
的 compareTo( ) 方法 匹配 时 返回 0， 不 匹配 时 返回 1。 如 果 和 
LESS 或 GREATER 运算 符 搭配 使 用 ， 会 产生 错误 结 








通常 每 个 比较 器 都 有 一 个 带 比较 值 参数 的 构造 函数 。 换 句 话 说 ， 用 
户 需 要 定义 一 个 值 来 跟 每 个 单元 格 做 比较 。 一 些 构造 函数 使 用 字 节 数组 
作为 参数 ， 并 通过 二 进 制 进行 比较 ， 还 有 一 些 使 用 String 参数 〈 当 需 
要 比较 的 参数 是 可 读 的 有 序 文 本 时 ) 进行 比较 。 例 4.1 展 示 了 这 些 功 
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一 基于 字符 囊 的 比较 器 ， 如 
RegexStringComparator 和 SubstringComparator ， 比 基 
于 字 节 的 比较 器 更 慢 ， 更 消耗 资源 。 因 为 每 次 比较 时 它们 都 
需要 将 给 定 的 值 转化 为 String 。 截 取 字 符 串 子囊 和 正则 式 的 
处 理 也 需要 花费 额外 的 时 间 。 


4.1.2 ”比较 过 滤器 





HBase 提 供 的 第 一 种 过 滤器 实现 就 是 比较 过 小 器 (comparison 
filter) 。 如 前 所 述 ， 用 户 创建 实例 时 需要 一 个 比较 运算 符 和 一 个 比较 器 
实例 。 每 个 比较 过 滤器 的 构造 方法 都 有 一 个 从 CompareFilter 继承 来 
的 签名 方法 。 





CompareFilter(CompareOp valueCompareOp, 
WritableByteArrayComparable valueComparator) 
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到 实现 了 特殊 比较 的 实际 过 滤器 。 


eh, 
一 一 公用 户 需要 了 解 ，HBase 中 过 滤器 本 来 的 目的 是 为 了 
筛 掉 无 用 的 信息 。 被 过 滤 掉 的 信息 不 会 被 传送 到 客户 端 。 过 
滤器 不 能 用 来 指定 用 户 需要 哪些 信息 ， 而 是 在 读 取 数 据 的 过 
程 中 不 返回 用 户 不 想 要 的 信息 。 











正好 相反 ， 所 有 基于 CompareFilter 的 过 滤 处 理 过 程 与 
上 面 所 描述 的 恰好 相反 ， 它 们 返回 匹配 的 值 。 换 句 话说 ， 用 
户 需要 根据 过 滤器 的 不 同 规 则 来 小 心地 挑选 过 滤器 。 例 如 ， 
如 果 用 户 需 要 返回 大 于 或 等 于 某 值 的 数据 ， 就 不 应 当 使 
用 LESS 来 跳 过 不 需要 的 数据 ， 而 应 当 使 用 GREATER _OR 
_EQUAL 来 包括 所 有 符合 条 件 的 数据 。 








1， 行 过 滤器 (RowFilter ) 


行 过 滤器 基于 行 键 来 过 滤 数 据 。 例 4.1 展 示 了 如 何 通 过 使 用 不 同 的 


过 滤器 来 获取 需要 的 行 。 使 用 多 种 比较 运算 符 来 返回 符合 条 件 的 行 键 ， 
同时 会 过 沽 不 符合 条 件 的 行 键 。 用 户 可 以 随意 地 修改 代码 来 改变 返回 结 
A 


例 4.1 使 用 过 小 器 来 挑选 特定 的 行 


Scan scan = new Scan(); 
scan.addColumn(Bytes.toBytes("colfam1") ,Bytes.toBytes("col-@")); 


Filter filter1 = new RowFilter(CompareFilter.CompareOp.LESS OR_ EQUAL,@ 
new BinaryComparator(Bytes.toBytes("row-22"))); 
scan.setFilter(filter1) ; 
ResultScanner scanner1 = table.getScanner(scan) ; 
for(Result res : scanner1){ 
System.out.printlin(res) ; 
} 


scanner1.close(); 


Filter filter2 = new RowFilter(CompareFilter.CompareOp.EQUAL,@ 
new RegexStringComparator(".*-.5")); 

scan.setFilter(filter2); 

ResultScanner scanner2 = table.getScanner(scan); 


for(Result res : scanner2){ 
System.out.println(res); 
} 


scanner2.close(); 


Filter filter3 = new RowFilter(CompareFilter.CompareOp.EQUAL,© 
new SubstringComparator("-5")); 

scan.setFilter(filter3) ; 

ResultScanner scanner3 = table.getScanner(scan) ; 

for(Result res : scanner3){ 
System.out.println(res) ; 

} 


scanner3.close(); 





各 创建 一 个 过 滤器 ， 指 定 比 较 运 算 符 和 比较 器 ， 这 里 需要 精确 匹 
配 。 


田 创 建 另 一 个 过 滤器 ， 使 用 正则 表达 式 来 匹配 行 键 。 


全 创建 第 三 个 过 滤器 ， 使 用 子 串 匹配 方法 。 


终端 的 输出 如 下 : 


Adding rows to table... 
Scanning table #1... 
keyvalues={row-1/colfam1:col-0/1301043190260/Put/vlen=7} 


keyvalues={row-10/colfam1: 





col-0/1301043190908/Put/vlen=8} 


keyvalues={row-100/colfam1:col-0/1301043195275/Put/vlen=9} 


keyvalues={row-11/colfam1: 
keyvalues={row-12/colfam1: 
keyvalues={row-13/colfam1: 
keyvalues={row-14/colfam1: 
keyvalues={row-15/colfam1: 
keyvalues={row-16/colfam1: 
keyvalues={row-17/colfam1: 
keyvalues={row-18/colfam1: 
keyvalues={row-19/colfam1: 


col-0/1301043190982/Put/vlen=8} 
col-0/1301043191040/Put/vlen=8} 
col-0/1301043191172/Put/vlen=8} 
col-0/1301043191318/Put/vlen=8} 
col-0/1301043191429/Put/vlen=8} 
col-0/1301043191509/Put/vlen=8} 
col-0/1301043191593/Put/vlen=8} 
col-0/1301043191673/Put/vlen=8} 
col-0/1301043191771/Put/vlen=8} 


keyvalues={row-2/colfam1:col-0/1301043190346/Put/vlen=7} 


keyvalues={row-20/colfam1: 
keyvalues={row-21/colfam1: 
keyvalues={row-22/colfam1: 


Scanning table #2... 


keyvalues={row-15/colfam1: 
keyvalues={row-25/colfam1: 
keyvalues={row-35/colfam1: 
keyvalues={row-45/colfam1: 
keyvalues={row-55/colfam1: 
keyvalues={row-65/colfam1: 
keyvalues={row-75/colfam1: 
keyvalues={row-85/colfam1: 
keyvalues={row-95/colfam1: 


Scanning table #3... 


col-0/1301043191841/Put/vlen=8} 
col-0/1301043191933/Put/vlen=8} 
col-0/1301043191998/Put/vlen=8} 


col-0/1301043191429/Put/vlen=8} 
col-0/1301043192140/Put/vlen=8} 
col-0/1301043192665/Put/vlen=8} 
col-0/1301043193138/Put/vlen=8} 
col-0/1301043193729/Put/vlen=8} 
col-0/1301043194092/Put/vlen=8} 
col-0/1301043194457/Put/vlen=8} 
col-0/1301043194806/Put/vlen=8} 
col-0/1301043195121/Put/vlen=8} 


keyvalues={row-5/colfam1:col-0/1301043190562/Put/vlen=7} 


keyvalues={row-5@/colfam1: 
keyvalues={row-51/colfam1: 
keyvalues={row-52/colfam1: 
keyvalues={row-53/colfam1: 
keyvalues={row-54/colfam1: 
keyvalues={row-55/colfam1: 
keyvalues={row-56/colfam1: 
keyvalues={row-57/colfam1: 
keyvalues={row-58/colfam1: 
keyvalues={row-59/colfam1: 


col-0/1301043193332/Put/vlen=8} 
col-0/1301043193514/Put/vlen=8} 
col-0/1301043193603/Put/vlen=8} 
col-0/1301043193654/Put/vlen=8} 
col-0/1301043193696/Put/vlen=8} 
col-0/1301043193729/Put/vlen=8} 
col-0/1301043193766/Put/vlen=8} 
col-0/1301043193802/Put/vlen=8} 
col-0/1301043193842/Put/vlen=8} 
col-0/1301043193889/Put/vlen=8} 


[L CR 


可 以 看 到 第 一 个 过 滤器 精确 匹配 了 所 需要 的 行 键 。 返 回 的 结果 中 包 
括 了 所 有 行 键 等 于 或 小 于 给 定 值 的 行 。 用 户 需 要 注意 筛选 行 键 的 过 程 ， 
行 键 是 按照 字典 序 排列 的 。 第 二 个 过 滤 志 使 用 正则 表达 式 筛选 ， 第 三 个 
EFA PR AGAR © SERA HAE as LEER o 


2. 列 族 过 滤器 (FamilyFilter ) 


这 个 过 滤器 与 行 过 滤器 (RowFilter ) 相似 ， 不 过 它 是 通过 比较 列 
族 而 不 是 比较 行 键 来 返回 结果 的 。 通 过 使 用 不 同 组 合 的 运算 符 和 比较 
器 ， 用 户 可 以 在 列 族 一 级 筛选 所 需 的 数据 。 例 4.2 展 示 了 如 何 使 用 它 
们 。 








例 4.2 ”使 用 过 小 器 来 返回 特定 的 列 族 


Filter filter1 = new FamilyFilter(CompareFilter.CompareOp.LESS,@ 
new BinaryComparator(Bytes.toBytes("colfam3"))); 


Scan scan = new Scan(); 

scan.setFilter(filter1) ; 

ResultScanner scanner = table.getScanner(scan);@ 

for(Result result : scanner){ 
System.out.println(result) ; 

} 


scanner.close(); 


Get get1 = new Get(Bytes.toBytes("row-5")); 
get1.setFilter(filter1) ; 

Result result1 = table.get(get1);e 
System.out.println("Result of get(): " + result1); 


Filter filter2 = new FamilyFilter(CompareFilter.CompareOp.EQUAL, 
new BinaryComparator(Bytes.toBytes("colfam3"))); 

Get get2 = new Get(Bytes.toBytes("row-5"));@ 

get2.addFamily(Bytes.toBytes("colfam1")); 

get2.setFilter(filter2); 

Result result2 = table.get(get2);6 

System.out.println( "Result of get(): " + result2); 





种 创建 一 个 过 滤器 ， 指 定 比 较 运 算 符 和 比较 器 。 

Oit Hive asst - 

全 使 用 相同 的 过 滤器 获取 一 行 数 据 。 

四 在 一 个 列 族 上 创建 过 滤器 ， 同 时 获取 另 一 行 数据 。 

加 使 用 新 的 过 滤器 获取 同一 行 数 据 ， 此 时 返回 结果 为 "NONE”。 


输出 结果 (为 了 方便 阅读 稍 作 整 理 ) 表明 了 过 滤器 的 作用 。 存 入 表 
的 数据 有 4 个 列 族 ， 每 个 列 族 有 两 列 ， 同 时 一 共有 10 行 数据 。 


Adding rows to table... 

Scanning table... 

keyvalues={row-1/colfam1:col-0/1303721790522/Put/vlen=7, 
row-1/colfam1:col-1/1303721790574/Put/vlen=7, 
row-1/colfam2:col-@/1303721790522/Put/vlen=7, 
row-1/colfam2:col-1/1303721790574/Put/vlen=7} 

keyvalues={row-10/colfam1:col-0/1303721790785/Put/vlen=8, 
row-10/colfam1: col-1/1303721790792/Put/vlen=8, 
row-10/colfam2:col-0/1303721790785/Put/vlen=8, 
row-10/colfam2: col-1/1303721790792/Put/vlen=8} 


keyvalues={row-9/colfam1:col-0/1303721790778/Put/vlen=7, 


row-9/colfam1:col-1/1303721790781/Put/vlen=7, 
row-9/colfam2:col-@/1303721790778/Put/vlen=7, 
row-9/colfam2:col-1/1303721790781/Put/vlen=7} 


Result of get(): keyvalues={row-5/colfam1:col-0/1303721790652/Put/vlen=7, 
row-5/colfam1:col-1/1303721790664/Put/vlen=7, 
row-5/colfam2:col-@/1303721790652/Put/vlen=7, 
row-5/colfam2:col-1/1303721790664/Put/vlen=7} 


Result of get(): keyvalues=NONE 





最 后 的 get() 调用 说 明 用 户 可 以 〈 非 故意 ) 通过 使 用 过 滤器 指定 
ae 同时 使 用 addFamily() 指定 男 一 列 族 ， 从 而 得 到 一 个 空 ST 
RE, 


3. 列 名 过 滤器 (QualifierFilter ) 


例 4.3 展 示 了 使 用 列 名 进行 簿 选 的 类 似 逻 辑 。 这 种 操作 可 以 帮助 用 
户 得 选 特定 的 列 。 


例 4.3 ”使 用 过 滤 右 筛选 列 


Filter filter = new QualifierFilter(CompareFilter.CompareOp.LESS OR EQUAL, 
new BinaryComparator(Bytes.toBytes("col-2"))); 


Scan scan = new Scan(); 

scan.setFilter(filter) ; 

ResultScanner scanner = table.getScanner(scan) ; 

for(Result result : scanner){ 
System.out.printin(result) ; 


scanner.close(); 


Get get = new Get(Bytes.toBytes("row-5")) 
get.setFilter(filter); 

Result result = table.get(get); 
System.out.println("Result of get(): " + result); 





4. 值 过 滤器 (ValueFilter ) 


Na a8 FT LAA BF ina EME EL CA o 
jRegexStringComparator 配合 使 用 ， 可 以 使 用 功能 强大 的 表达 式 来 
进行 筛选 。 例 4.4 展 示 了 这 项 功能 。 需 要 注意 的 是 ， 在 使 用 特定 比较 器 
的 时 候 ， 只 能 与 部 分 运算 符 搭 配 。 在 本 例 中 ， 我 们 使 用 了 子 字符 串 匹 
配 ， 这 种 匹配 只 能 使 用 EQUAL 和 NOT _EQUAL 运算 符 。 


例 4.4 使 用 值 过 滤器 的 例子 





Filter filter = new ValueFilter(CompareFilter.CompareOp.EQUAL,@ 
new SubstringComparator(".4")); 


Scan scan = new Scan(); 
scan.setFilter(filter);@ 

ResultScanner scanner = table.getScanner(scan) ; 
for(Result result : scanner){ 


for(KeyValue kv : result.raw()){ 
System.out.println("KV: " + kv + ",Value: "+ © 
Bytes.toString(kv.getValue())); 
} 
} 


scanner.close(); 


Get get = new Get(Bytes.toBytes("row-5")); 
get.setFilter(filter);e 
Result result = table.get(get); 
for(KeyValue kv : result.raw()){ 
System.out.printin("KV: " + kv + ",Value: " + 
Bytes. toString(kv.getValue())); 





各 创建 过 滤器 ， 指 定 比 较 运 算 符 和 比较 器 。 
男 设 置 扫描 过 程 中 的 过 滤器 。 
Ot a RIFE 


四 将 同样 的 过 滤器 应 用 于 Get 实例 。 
5. 参考 列 过 滤器 (DependentColumnFilter ) 


这 里 有 一 种 更 复杂 的 过 滤器 ， 这 种 过 滤 霹 不 仅仅 简单 地 通过 用 户 指 
定 的 信息 筛选 数据 。 这 种 过 滤器 允许 用 户 指定 一 个 参考 列 或 是 引用 列 ， 
并 使 用 参考 列 控制 其 他 列 的 过 滤 。 参 考 列 过 滤 喜 使 用 参考 列 的 时 间 惟 ， 
FEW TEIA 5 5) FIIN ERRA FIKA. 下 面 是 它 的 构造 方法 : 





DependentColumnFilter(byte[] family,byte[] qualifier) 

DependentColumnFilter(byte[] family,byte[] qualifier, 
boolean dropDependentColumn) 

DependentColumnFilter(byte[] family,byte[] qualifier, 


boolean dropDependentColumn,CompareOp valueCompareOp, 
WritableByteArrayComparable valueComparator) 





由 于 参考 过 滤器 也 是 继承 自 CompareFilter， 所 以 它 也 可 以 帮助 
用 户 筛选 列 ， 不 过 这 个 过 滤器 是 基于 这 些 列 值 进行 筛选 的 。 用 户 可 以 把 
它 理解 为 一 个 valueFilter 和 一 个 时 间 惟 过 滤器 的 组 合 。 用 户 可 以 传 
入 比较 运算 符 和 基准 值 来 启用 ValueFilter 的 功能 。 这 个 过 滤器 的 构 
造 函 数 默认 人 允许 用 户 在 所 有 列 上 名 略 运 算 符 和 比较 器 ， 以 及 屏蔽 按 值得 
选 的 功能 ， 也 就 是 说 整个 过 滤器 只 基于 参考 列 的 时 间 惟 进行 科 选 。 


例 4.5 展 示 了 过 滤器 的 用 法 ， 例 子 展 示 了 各 个 可 选 参数 的 作 
用 。dropDependentColumn 参数 可 以 帮助 用 户 操作 参考 列 : 该 参数 设 
为 false 或 true 决定 了 参考 列 可 以 被 返回 还 是 被 丢弃 。 


例 4.5 ”使 用 过 小 费 返 回 一 些 特定 的 列 











private static void filter(boolean drop, 
CompareFilter.CompareOp operator, 
WritableByteArrayComparable comparator) 
throws IOException { 
Filter filter; 
if(comparator != null){ 
filter = new DependentColumnFilter(Bytes.toBytes("colfam1"), 
Bytes.toBytes("col-5"),drop, operator, comparator) ; 
} else { 
filter = new DependentColumnFilter(Bytes.toBytes("colfam1") ,@ 
Bytes.toBytes("col-5"),drop); 


} 


Scan scan = new Scan(); 
scan.setFilter(filter); 
ResultScanner scanner = table.getScanner(scan) ; 
for(Result result : scanner){ 
for(KeyValue kv : result.raw()){ 
System.out.printlin("KV: " + kv + ",Value: " + 
Bytes. toString(kv.getValue())); 


} 
scanner.close(); 


Get get = new Get(Bytes.toBytes("row-5")); 
get.setFilter(filter); 
Result result = table.get(get); 
for(KeyValue kv : result.raw()){ 
System.out.println("KV: " + kv + ",Value: " + 
Bytes.toString(kv.getValue())); 


} 
} 


public static void main(String[] args)throws IOException { 

filter(true,CompareFilter.CompareOp.NO_OP,null); 
filter(false,CompareFilter.CompareOp.NO_OP,null);@ 
filter(true, CompareFilter.CompareOp.EQUAL, 

new BinaryPrefixComparator(Bytes.toBytes("val-5"))); 
filter(false,CompareFilter.CompareOp.EQUAL, 

new BinaryPrefixComparator(Bytes.toBytes("val-5"))); 
filter(true,CompareFilter.CompareOp.EQUAL, 

new RegexStringComparator(".*\\.5")); 
filter(false,CompareFilter.CompareOp.EQUAL, 

new RegexStringComparator(".*\\.5")); 





@ 使 用 多 个 参数 创建 过 滤器 。 
四 使 用 多 个 参数 调用 过 滤器 方法 。 


| 

=> 这 种 过 滤器 与 扫描 操作 的 批量 处 理 功 能 不 兼容 ， 换 
句 话 说， eo setBatch() 方法 将 batch 值 设 为 一 
个 比 0 大 的 数 。 然 而 ， 过 滤器 需要 查看 整 行 数据 来 决定 哪些 数 
据 被 过 滤 ， II a en Gens 
考 列 ， 因 此 结果 有 错 。 


如 果 司 用 批量 处 理 模式 ， 用 户 会 遇 到 以 下 错误 : 





Exception org.apache.hadoop.hbase.filter.IncompatibleFilter Exception: 
Cannot set batch on a scan using a filter that returns true for filter 
. hasFilterRow 


pO 


这 个 例子 不 同 于 之 前 提 到 的 过 滤器 ， 因 为 它 控制 列 的 版 本 来 得 到 时 
间 戳 相符 的 结 采 。 服 务 器 端 使 用 隐 陈 时 间 戳 作为 版 本 可 能 导致 结果 出 现 
波动 ， 主 要 原因 是 用 户 不 能 保证 使 用 的 时 间 精 确 到 坚 秒 。 


例子 中 filter() 方法 被 多 种 不 同 的 组 合 参数 调用 ， 展 示 了 如 何 使 
用 内 建 值 过 小 器 和 终止 标志 位 来 操纵 返回 的 数据 集 。 


41.3 ”专用 过 滤器 


HBase 提 供 的 第 二 类 过 滤器 直接 继承 自 FilterBase ， 同 时 用 于 更 
特定 的 使 用 场景 。 其 中 的 一 些 过 滤器 只 能 做 行 筛选 ， 因 此 只 适用 于 扫描 
操作 。 对 get0 方 法 来 说 ， 这 些 过 滤器 限制 得 过 于 苛刻 : 要 么 包括 整 行 ， 
要 么 什么 都 不 包括 。 


1. 单列 值 过 滤器 (SingleColumnValueFilter ) 
用 户 针对 如 下 情况 时 可 以 使 用 该 过 滤器 : 用 一 列 的 值 决 定 是 否 一 行 


数据 被 过 滤 。 首 先 设 定 符 检 查 的 列 ， 然 后 设置 符 检 查 的 列 的 对 应 值 。 有 具 
体 构造 函数 如 下 : 

















SingleColumnValueFilter(byte[] family,byte[] qualifier, 
CompareOp compareOp,byte[] value) 
SingleColumnValueFilter(byte[] family,byte[] qualifier, 


CompareOp compareOp,WritableByteArrayComparable comparator) 





第 一 个 构造 函数 较为 简单 ， 因 为 它 只 在 内 部 创建 一 
个 BinaryComparator 实例 。 第 二 个 构造 函数 中 所 需 的 参数 与 用 户 一 直 
在 使 用 的 基于 compareFilter 的 类 相同 ， 尽 管 
SingleColumnValueFilter 并 不 是 直接 继承 自 CompareFilter， 但 还 
是 使 用 了 相同 的 参数 类 型 。 


同时 ， 过 滤器 还 提供 了 一 些 辅 助 方法 帮助 用 户 微 调 过 滤 行为 。 





boolean getFilterIfMissing() 
void setFilterIfMissing(boolean filterIfMissing) 
boolean getLatestVersionOnly() 


void setLatestVersionOnly(boolean latestVersionOnly) 








前 者 决定 了 当 参 考 列 不 存在 时 如 何 处 理 这 一 行 。 默 认 的 这 一 行 是 被 
包含 在 结果 中 的 ， 用 户 可 以 使 用 setFilterIfMissing(true) 来 过 滤 
cau 也 就 是 说 ， 在 这 样 设置 以 后 ， 所 有 不 包含 参考 列 的 行 都 可 以 被 
hE TE 


— 用 户 在 扫描 时 必须 包括 参考 列 ， 用 户 使 用 类 似 于 
addColumn() 的 方法 把 参考 列 添加 到 查询 中 。 如 果 用 户 没 有 
这 么 做 ， 也 就 是 说 扫描 结果 中 没有 包括 参考 列 ， 那 么 结果 可 
能 为 空 或 包含 所 有 行 ， 至 于 具体 情况 会 根 

据 getFilterIfMissing() 的 设 定 值 来 返回 。 














使 用 setLatestVersionOnly(false) 可 以 改变 过 滤器 的 行为 ， 默 
认 值 为 true ， 此 时 过 滤器 只 检查 参考 列 的 最 新 版 本 ， 设 为 false 之 后 
会 检查 所 有 版 本 。 例 4.6 组 合 了 这 些 特性 来 获取 一 组 特定 的 行 。 


例 4.6 ”使 用 过 滤器 返回 包含 特定 列 中 特定 值 的 行 








SingleColumnValueFilter filter = new SingleColumnValueFilter( 
Bytes.toBytes("colfam1"), 
Bytes.toBytes("col-5"), 
CompareFilter.CompareOp.NOT_EQUAL, 
new SubstringComparator("val-5")); 
filter.setFilterIfMissing(true) ; 


Scan scan = new Scan(); 


scan.setFilter(filter); 
ResultScanner scanner = table.getScanner(scan) ; 
for(Result result : scanner){ 
for(KeyValue kv : result.raw()){ 
System.out.println("KV: " + kv + ",Value: " + 
Bytes. toString(kv.getValue())); 
} 


scanner.close(); 


Get get = new Get(Bytes.toBytes("row-6")); 
get.setFilter(filter) ; 
Result result = table.get(get); 
System.out.println("Result of get: "); 
for(KeyValue kv : result.raw()){ 
System.out.printin("KV: " + kv + ",Value: "+ 
Bytes. toString(kv.getValue())); 





2. 单列 排除 过 滤器 (SingleColumnValueExcludeFilter ) 


单列 排除 过 滤器 继承 自 SsingleColumnValueFilter ， 经 过 拓展 后 
提供 一 种 略微 不 同 的 语意 .参考 列 不 被 包括 到 结果 中 。 换 句 话说 ， 用 户 
可 以 使 用 与 之 前 相同 的 特性 和 方法 来 控制 过 滤器 的 工作 ， 唯 一 的 不 同 
是 ， 客 户 端 Result 实例 中 用 户 永 远 不 会 获得 作为 检查 目标 的 参考 列 。 





3. 前 级 过 滤器 (PrefixFilter ) 





在 构造 当前 过 滤器 时 传 入 一 个 前 级 ， 所 有 与 前 级 匹配 的 行 都 会 被 返 
回 到 客户 并 。 构 造 函 数 如 下 : 


public PrefixFilter(byte[] prefix) 
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Filter filter = new PrefixFilter(Bytes.toBytes("row-1")); 


Scan scan = new Scan(); 
scan.setFilter(filter) ; 
ResultScanner scanner = table.getScanner(scan) ; 
for(Result result : scanner){ 
for(KeyValue kv : result.raw()){ 
System.out.println("KV: " + kv + ",Value: " + 
Bytes. toString(kv.getValue())); 
} 
} 


scanner.close(); 


Get get = new Get(Bytes.toBytes("row-5")); 
get.setFilter(filter) ; 
Result result = table.get(get); 
for(KeyValue kv : result.raw()){ 
System.out.printin("KV: " + kv + ",Value: " + 
Bytes. toString(kv.getValue())); 





再 要 用 户 注意 的 是 ，get() 方法 并 没有 返回 任何 结果 ， 因 为 它 请 求 
的 行 与 过 渡 絮 的 前 级 不 匹配 。 这 个 过 滤器 在 使 用 get() 方法 时 作用 不 
大 ， 但 是 在 扫描 操作 中 非常 有 用 。 


扫 摘 操作 以 字典 序 查 找 ， 当 遇 到 比 前 绥 大 的 行 时 ， 扫 摘 操 作 就 结 
了 。 通 过 与 起 始 行 配合 使 用 ， 过 虑 器 的 扫 摘 性 能 大 大 提高 ， 原 因 是 当 它 
发 现 后 面 的 行 不 符合 要 求 时 会 全 部 跳 过 。 
4. 分 页 过 滤器 (PageFilter ) 


用 户 可 以 使 用 这 个 过 小 右 对 结果 按 行 分 页 。 当 用 户 创 建 当 前 过 滤器 
实例 时 需要 指定 pageSize 参数 ， 这 个 参数 可 以 控制 每 页 返回 的 行 数 。 
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“在 物理 上 分 离 的 服务 器 中 并 行 执行 过 滤 操 作 时 ， 需 








要 注意 以 下 几 个 事项 。 在 不 同 的 region 服 务 器 上 并 行 执行 的 过 
滤 占 不 能 共 至 它们 现在 的 状态 和 边界 ， 因 此 ， 每 个 过 小 占 都 

会 在 完成 扫描 前 获取 pageCount 行 的 结果 ， 这 种 情况 使 得 分 

页 过 滤器 可 能 失效 ， 极 有 可 能 返回 的 比 所 需要 的 多 。 最 终 客 

户 问 在 合并 结果 时 可 以 选择 返回 所 有 结果 ， 也 可 以 使 用 API 根 
所 需求 科 选 结果 。 





客户 端 代码 会 记录 本 次 扫 朱 的 最 后 一 行 ， 并 在 下 一 次 获取 数据 时 把 
记录 的 上 次 扫 摘 的 最 后 一 行 设 为 这 次 扫描 的 起 始 行 ， 同 时 保留 相同 的 过 
小 属性 ， 然 后 依次 进行 迭代 。 

分 页 时 对 一 次 返回 的 行 数 设 定 了 严格 的 限制 ， 一 次 扫 朱 所 办 盖 的 行 
数 很 可 能 是 多 于 分 页 大 小 的 ， 一 旦 这 种 情况 发 生 ， 过 滤 右 有 一 种 机 制 通 
知 region 服 务 占 停止 扫描 。 


例 4.8 把 以 上 介绍 的 机 制 放 在 了 一 起 ， 并 展示 了 如 何在 客户 端 连续 
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4.8 ”使 用 过 小 器 按 行 分 页 





Filter filter = new PageFilter(15); 


int totalRows = 0; 
byte[] lastRow = null; 
while(true){ 
Scan scan = new Scan(); 
scan.setFilter(filter) ; 
if(lastRow != null){ 
byte[] startRow = Bytes.add(lastRow, POSTFIX) ; 
System.out.println("start row: " + 
Bytes.toStringBinary(startRow) ); 
scan.setStartRow(startRow) ; 


ResultScanner scanner = table.getScanner(scan) ; 

int localRows = 0; 

Result result; 

while((result = scanner.next())!= null){ 
System.out.println(localRows++ + ": " + result); 


totalRows++; 
lastRow = result.getRow(); 


scanner.close(); 
if(localRows == @)break; 
} 


System.out.println("total rows: " + totalRows) ; 





HBase 中 的 行 键 是 按 字 典 序 排列 的 ， 因 此 返回 的 结果 也 是 如 此 排序 
的 ， 并 且 起 始 行 是 被 包括 在 结果 中 的 。 用 户 需 要 拼接 一 个 零 字 节 (一 个 





长 度 为 零 的 字 市 数组 〉 到 之 前 的 行 键 ， 这 样 可 以 保证 最 后 返回 的 行 在 本 

轮 扫 描 时 不 被 包括 。 当 重 置 扫 描 的 边界 时 ， 零 字 节 是 最 聪明 可 靠 的 方 

式 ， 因 为 零 字 市 是 最 小 的 增幅 。 即 使 有 一 行 的 行 键 正好 与 之 前 一 行 加 零 

在 这 一 轮 循环 时 也 不 会 有 问题 ， 因 为 起 始 行 在 扫描 时 是 被 包 
在 内 的 。 


5. 行 键 过 滤器 (KeyOnlyFilter ) 


在 一 些 应 用 中 只 需要 将 结果 中 KeyValue 实例 的 键 返 回 ， 而 不 需要 
返回 实际 的 数据 。KeyOnlyFilter 提供 了 可 以 修改 扫描 出 的 列 和 单元 
格 的 功能 。 这 个 过 滤器 通过 KeyValue.convertToKeyOn1ly(boolean) 
方法 帮助 调用 只 返回 键 不 返回 值 。 


这 个 过 滤器 的 构造 函数 中 需要 一 个 叫 lenAsVal 的 布尔 参数 。 这 个 
参数 会 被 传 入 convertToKeyOnly() 方法 中 ， 它 可 以 控制 KeyValue 实 
例 中 值 的 处 理 。 默 认 值 为 false， 设 置 为 false 时 ， 值 被 设 为 长 度 为 0 
的 字 节 数组 ， 设 置 为 true 时 ， 值 被 设 为 原 值 长 度 的 字 节 数组 。 


键 昌 然 包含 了 有 意义 的 信息 ， 但 值 的 长 度 可 能 用 来 做 二 次 排序 并 需 
要 快速 欠 代 所 有 列 ， 此 时 前 段 描述 中 的 后 者 对 当前 的 应 用 非常 有 用 。 在 
11.7 市 中 有 相关 示例 。 


6. 首次 行 键 过 滤器 (FirstKeyOnlyFilter ) 
如 果 用 户 需 要 访问 一 行 中 的 第 一 列 (HBase 隐 式 排序 ) ， 则 这 种 过 


滤 右 可 以 满足 需求 。 这 种 过 滤器 通常 在 行 数 统计 Crow counter) 的 应 用 
场景 中 使 用 ， 这 种 场景 只 需要 检查 这 一 行 是 否 存在 。 在 列 式 存储 数据 库 



































中 如 果菜 一 行 存在 ， 则 行 中 必然 有 列 。 


由 于 列 也 按 字典 序 排列 ， 因 此 其 他 可 能 用 到 的 场景 是 按照 时 间 先 后 
生成 列 名 ， 这 样 最 旧 的 列 就 会 排 在 最 前 面 ， 因 此 时 间 惟 最 久 的 列 会 最 先 
被 检索 到 。 这 个 场景 与 当前 的 过 滤器 结合 使 用 时 ， 通 过 单一 的 扫描 操作 
就 可 以 得 到 每 行 中 最 早 创建 的 列 。 

这 个 类 使 用 了 过 滤器 框架 提供 的 男 一 个 优化 特性 ， 它 在 检查 完 第 一 
列 之 后 会 通知 region 服 务 器 结束 对 当前 行 的 扫描 ， 并 跳 到 下 一 行 ， 与 全 
表 扫 描 相 比 ， 其 性 能 得 到 了 提升 。 

7. 包含 结束 的 过 滤器 (InclusiveStopFilter ) 

扫描 操作 中 的 开始 行 被 包含 到 结果 中 ， 但 终止 行 被 排除 在 外 。 使 用 
这 个 过 滤器 时 ， 用 户 也 可 以 将 结束 行 包括 到 结果 中 。 例 4.9 从 row-3 FF 
始 扫 描 ， 到 row-5 结束 扫描 。 


例 4.9 ”使 用 包含 结束 行 的 过 滤器 取 回 结束 行 

















Filter filter = new InclusiveStopFilter(Bytes.toBytes("row-5")); 


Scan scan = new Scan(); 
scan.setStartRow(Bytes.toBytes("row-3")); 
scan.setFilter(filter); 

ResultScanner scanner = table.getScanner(scan) ; 


for(Result result : scanner){ 
System.out.printin(result) ; 


scanner.close(); 





示例 运行 时 控制 台 的 输出 结果 如 下 所 示 : 





Adding rows to table... 

Results of scan: 
keyvalues={row-3/colfam1:col-0/1301337961569/Put/vlen=7} 
keyvalues={row-30/colfam1:col-0/1301337961610/Put/vlen=8} 
keyvalues={row-31/colfam1:col-0/1301337961612/Put/vlen=8} 
keyvalues={row-32/colfam1:col-0/1301337961613/Put/vlen=8} 
keyvalues={row-33/colfam1:col-0/1301337961614/Put/vlen=8} 


keyvalues={row-34/colfam1: 
keyvalues={row-35/colfam1: 
keyvalues={row-36/colfam1: 
keyvalues={row-37/colfam1: 
keyvalues={row-38/colfam1: 
keyvalues={row-39/colfam1: 


col-0/1301337961615/Put/vlen=8} 
col-0/1301337961616/Put/vlen=8} 
col-0/1301337961617/Put/vlen=8} 
col-0/1301337961618/Put/vlen=8} 
col-0/1301337961619/Put/vlen=8} 
col-0/1301337961620/Put/vlen=8} 


keyvalues={row-4/colfam1:col-0/1301337961571/Put/vlen=7} 


keyvalues={row-40/colfam1: 
keyvalues={row-41/colfam1: 
keyvalues={row-42/colfam1: 
keyvalues={row-43/colfam1: 
keyvalues={row-44/colfam1: 
keyvalues={row-45/colfam1: 
keyvalues={row-46/colfam1: 
keyvalues={row-47/colfam1: 
keyvalues={row-48/colfam1: 
keyvalues={row-49/colfam1: 


col-0/1301337961621/Put/vlen=8} 
col-0/1301337961622/Put/vlen=8} 
col-0/1301337961623/Put/vlen=8} 
col-0/1301337961624/Put/vlen=8} 
col-0/1301337961625/Put/vlen=8} 
col-0/1301337961626/Put/vlen=8} 
col-0/1301337961627/Put/vlen=8} 
col-0/1301337961628/Put/vlen=8} 
col-0/1301337961629/Put/vlen=8} 
col-0/1301337961630/Put/vlen=8} 


keyvalues={row-5/colfam1:col-0/1301337961573/Put/vlen=7} 





8. 时间 惟 过 滤器 (TimestampsFilter ) 


当 用 户 需 要 在 扫描 


吉 果 中 对 版 本 进行 细 粒 度 的 控制 时 ， 
可 以 满足 需求 。 用 户 需要 传 入 一 个 装 吉 了 时 间 散 的 List 实例 。 


TimestampsFilter(List< Long> timestamps) 
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”如 前 文 所 述 ， 一 个 版 本 (version) 是 指 一 个 列 在 一 
个 特定 时 间 的 值 ， 因 此 用 一 个 时 间 戳 (timestamp) 来 表示 。 
当 过 滤器 请 求 一 系列 的 时 间 惟 时 ， 它 会 找到 与 其 中 时 间 戳 精 
HAVE AC AY A Fig AS 





例 4.10 在 第 一 个 扫描 中 使 用 了 一 个 包括 3 个 时 间 戳 的 过 滤器 ， 在 第 
二 个 扫描 中 增加 了 一 个 时 间 范 围 限制 。 





例 4.10 ”使 用 时 间 惟 过 涯 数据 


List< Long> ts = new ArrayList< Long>(); 
ts.add(new Long(5)); 

ts.add(new Long(10));@ 

ts.add(new Long(15)); 

Filter filter = new TimestampsFilter(ts); 


Scan Scan1 = new Scan(); 

scani.setFilter(filter) 5; 

ResultScanner scanneri1 = table.getScanner(scan1); 

for(Result result : scanner1){ 
System.out.printin(result) ; 

} 


scanner1.close(); 


Scan scan2 = new Scan(); 
scan2.setFilter(filter); 
scan2.setTimeRange(8,12) 56 
ResultScanner scanner2 = table.getScanner(scan2); 
for(Result result : scanner2){ 

System. out.printin(result) ; 
} 


scanner2.close(); 
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Olescan 实例 中 添加 过 滤器 。 

全 添加 时 间 范 围 限制 ， 看 它 如 何 影响 过 滤器 的 行为 。 
以 下 是 节选 的 输出 : 








Adding rows to table... 
Results of scan #1: 
keyvalues={row-1/colfam1:col-10/10/Put/vlen=8, 


row-1/colfam1:col-15/15/Put/vlen=8, 
row-1/colfam1:col-5/5/Put/vlen=7} 
keyvalues={row-10/colfam1:col-10/10/Put/vlen=9, 
row-10/colfam1:col-15/15/Put/vlen=9, 
row-10/colfam1:col-5/5/Put/vlen=8} 
keyvalues={row-100/colfam1:col-10/10/Put/vlen=10, 
row-100/colfam1:col-15/15/Put/vlen=10, 
row-100/colfam1:col-5/5/Put/vlen=9} 


Results of scan #2: 
keyvalues={row-1/colfam1:col-10/10/Put/vlen=8} 
keyvalues={row-10/colfam1:col-10/10/Put/vlen=9} 
keyvalues={row-100/colfam1:col-10/10/Put/vlen=10} 
keyvalues={row-11/colfam1:col-10/10/Put/vlen=9} 





第 一 个 只 使 用 过 滤器 的 扫描 操作 返回 了 这 个 列 的 3 个 版 本 ， 它 们 的 
时 间 惟 与 过 小费 预期 的 一 尾 。 第 二 个 扫描 操作 只 返回 了 符合 时 间 范 围 限 
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门限 制 。 


9. 列 计数 过 滤器 (ColumnCountGetFilter ) 


用 户 可 以 使 用 这 个 过 小 占 来 限制 每 行 最 多 取 回 多 少 列 。 你 可 以 使 用 
以 下 构造 器 来 设置 这 个 数字 : 











ColumnCountGetFilter(int n) 








当 一 行 的 列 数 达到 设 定 的 最 大 值 时 ， 这 个 过 虑 器 会 俘 止 整个 扫描 操 
作 ， 所 以 它 不 太 适 合 扫描 操作 ， 反 而 比较 适合 在 get() 方法 中 使 用 。 


10. 列 分 页 过 滤器 (ColumnPaginationFilter ) 


与 PageFilter 相似 ， 这 个 过 滤器 可 以 对 一 行 的 所 有 列 进行 分 页 。 
它 的 构造 器 需要 两 个 参数 : 





ColumnPaginationFilter(int limit,int offset) 














它 将 跳 过 所 有 偏 移 量 小 于 offset 的 列 ， 并 包括 之 后 所 有 偏 移 量 
pores 之 前 (包含 1imit 的 列 。 例 4.11 在 一 次 扫描 操作 中 使 用 了 这 
MEIRAS: 


例 4.11 对 一 行 中 的 所 有 列 分 页 


Filter filter = new ColumnPaginationFilter(5,15); 


Scan scan = new Scan(); 

scan.setFilter(filter) ; 

ResultScanner scanner = table.getScanner(scan) ; 

for(Result result : scanner){ 
System.out.println(result) ; 

} 


scanner.close(); 





示例 代码 的 输出 如 下 : 


Adding rows to table... 

Results of scan: 

keyvalues={row-@1/colfam1:col-15/15/Put/vlen=9, 
row-@1/colfam1:col-16/16/Put/vlen=9, 
row-@1/colfam1:col-17/17/Put/vlen=9, 
row-@1/colfam1:col-18/18/Put/vlen=9, 
row-@1/colfam1:col-19/19/Put/vlen=9} 

keyvalues={row-@2/colfam1:col-15/15/Put/vlen=9, 


row-@2/colfam1:col-16/16/Put/vlen=9, 
row-@2/colfam1:col-17/17/Put/vlen=9, 
row-@2/colfam1:col-18/18/Put/vlen=9, 
row-@2/colfam1: col-19/19/Put/vlen=9} 








一 一 这 个 例子 通过 在 行 和 列 的 后 面 添加 了 一 段 用 作 记 数 
的 部 分 改变 了 它们 的 计数 方式 。 例 如 第 一 行 被 补 位 成 了 row- 
81 。 这 也 展示 了 如 何 使 用 补 全 的 字段 让 排序 的 结果 更 加 可 读 
易 懂 ， 换 句 话 说 ， 让 输出 结果 像 字典 或 电话 簿 。 


整个 10 行 数据 都 被 打印 出 来 ， 并 且 返 回 的 列 都 是 在 offset =15 和 
limit=5 的 范围 内 ， 每 个 结果 集 有 5 列 。 


11. 列 前 级 过 滤器 (columnPrefixFilter ) 


类 似 于 PrefixFilter ， 这 个 过 滤器 通过 对 列 名 称 进 行 前 缀 匹配 过 
滤 。 用 户 需 要 指定 一 个 前 级 来 创建 过 滤器 。 


ColumnPrefixFilter(byte[] prefix) 





所 有 与 设 定 前 级 匹配 的 列 都 被 包含 在 结果 中 。 
12. 随机 行 过 滤器 (RandomRowFilter ) 


最 后 ， 有 一 种 过 滤器 可 以 让 结果 中 包含 随机 行 。 构 造 函 数 需要 传 入 
参数 chance ，chance 取 值 区 间 在 0.0 到 1.0 之 间 。 


RandomRowFilter(float chance) 





在 过 滤器 内 部 会 使 用 Java 方 法 Random.nextFloat() 来 诀 定 一 行 是 
侍 被 过滤， 使 用 这 个 方法 的 结果 会 与 用 户 设 定 的 chance 进 行 比较 。 如 
果 用 户 为 chance 赋 一 个 负 值 会 寻 致 所 有 结果 都 被 过 小 掉 ， 相 反 地 ， 如 





果 chance 大 于 1.0 则 结果 集中 包含 所 有 行 


4.1.4 ”附加 过 滤器 


目前 HBase 提 供 的 过 滤器 已 经 十 分 强大 ， 这 些 过 滤器 可 以 提供 修 
改 、 扩 展 和 对 返回 结果 的 行为 进行 控制 等 功能 。 一 些 额 外 的 控制 不 依赖 
于 这 些 过 滤器 本 喘 ， 但 却 可 以 应 用 在 其 他 过 HERE. 这 正 是 附加 过 小 器 
(decorating filter〉 想 要 提供 的 功能 。 





1. 跳 转 过 滤器 (SkipFilter ) 

这 个 过 滤器 包装 了 一 个 用 户 提 供 的 过 滤 占 ， 当 被 包装 的 过 滤 右 过 到 
_ 不 需要 过 泪 的 Keyvalue 实例 时 ， 用 户 可 以 拓展 并 过 尖 整 改行 数据 。 “fi 
oe 过 滤器 友 现 某 一 行 中 的 一 列 需 要 过 小时， 那么 整 行 数据 都 将 
被 过 》 





ae + 
| A 上 
一 一 被 包装 的 过 滤器 © 必须 实现 filterKeyValue() 方 
法 ， 人 否则 SkipFilter 无 法 正常 工作 。 这 是 因为 skipFilter 
只 通过 检查 这 个 方法 的 返回 结果 来 决定 如 何 处 理 这 一 行 。 参 


考 表 4-5 来 查看 兼容 的 过 滤器 概述 














例 4.12 将 SkipFilter 和 ValueFilter 组 合 起 来 获取 不 包含 空 列 值 
的 行 ， 同 时 过 滤 挥 其 他 不 符合 条 件 的 行 。 


例 4.12 根据 为 一 个 过 小 器 的 结果 使 用 skipFilter 过 滤 整 行 数据 





Filter filter1 = new ValueFilter(CompareFilter.CompareOp.NOT_ EQUAL, 
new BinaryComparator(Bytes.toBytes("val-@"))); 


Scan scan = new Scan(); 
scan.setFilter(filter1);@ 


ResultScanner scanner1 = table.getScanner(scan) ; 
for(Result result : scanner1){ 
for(KeyValue kv : result.raw()){ 
System.out.println("KV: " + kv + ",Value: " + 
Bytes. toString(kv.getValue())); 
} 
} 


scanner1.close(); 
Filter filter2 = new SkipFilter(filter1); 


scan.setFilter(filter2);@ 
ResultScanner scanner2 = table.getScanner(scan) ; 
for(Result result : scanner2){ 
for(KeyValue kv : result.raw()){ 
System.out.println("KV: " + kv + ",Value: " + 
Bytes.toString(kv.getValue())); 
} 
} 


scanner2.close(); 





种 还 加 ValueFilter 到 第 一 个 扫描 中 。 
@ 在 第 二 个 扫描 中 添加 一 个 用 skipFilter 装饰 过 的 过 滤器 。 
运行 时 示例 代码 应 当 有 如 下 输出 ， 每 次 调用 所 得 结果 的 顺序 有 可 能 





Adding rows to table... 

Results of scan #1: 

KV: row-@1/colfam1:col-@0/0/Put/vlen=5,Value: val-4 
KV: row-0@1/colfam1:col-@1/1/Put/vlen=5,Value: val-2 
KV: row-0@1/colfam1:col-@2/2/Put/vlen=5,Value: val-4 
KV: row-@1/colfam1:col-@3/3/Put/vlen=5,Value: val-3 
KV: row-0@1/colfam1:col-04/4/Put/vlen=5,Value: val-1 
KV: row-0@2/colfam1:col-@0/0/Put/vlen=5,Value: val-3 
KV: row-0@2/colfam1:col-@1/1/Put/vlen=5,Value: val-1 
KV: row-@2/colfam1:col-@3/3/Put/vlen=5,Value: val-4 
KV: row-@2/colfam1:col-04/4/Put/vlen=5,Value: val-1 


Total KeyValue count for scan #1: 122 


Results of scan #2: 

KV: row-@1/colfam1:col-00/0/Put/vlen=5,Value: val-4 
KV: row-@1/colfam1:col-@1/1/Put/vlen=5,Value: val-2 
KV: row-@1/colfam1:col-@2/2/Put/vlen=5,Value: val-4 
KV: row-@1/colfam1:col-03/3/Put/vlen=5,Value: val-3 
KV: row-@1/colfam1:col-04/4/Put/vlen=5,Value: val-1 
KV: row-@7/colfam1:col-00/0/Put/vlen=5,Value: val-4 
KV: row-@7/colfam1:col-01/1/Put/vlen=5,Value: val-1 
KV: row-@7/colfam1:col-0@2/2/Put/vlen=5,Value: val-1 
KV: row-@7/colfam1:col-03/3/Put/vlen=5,Value: val-2 
KV: row-@7/colfam1:col-04/4/Put/vlen=5,Value: val-4 


Total KeyValue count for scan #2: 50 





一 次 扫描 返回 了 所 有 非 空 的 列 。 由 于 这 个 值 是 之 前 赋 的 随机 值 ， 
所 以 在 一 行 中 可 能 有 一 个 或 多 个 列 的 值 为 空 。 一 些 行 的 某 些 列 因为 值 为 
空 而 不 被 返回 


第 一 次 扫描 由 于 包装 了 第 一 过 滤器 ， 则 所 有 包括 空 列 的 行 都 会 被 
丢弃 。 用 户 可 以 从 终端 输出 中 看 到 完整 的 多 行 数据 ， 即 最 初创 建 的 5 
ee dike Vein 总 数 说 明了 SkipFilter smite ho BHR 
更 多 。 


2. 全 匹配 过 滤器 (WhileMatchFilter ) 


第 二 个 附加 过 滤器 与 之 前 的 附加 过 滤器 相似 ， 不 过 当 一 条 数据 被 过 
滤 挥 时 ， 它 束 会 直接 放弃 这 次 扫描 操作 。 它 使 用 其 封装 的 过 滤器 来 检查 
KeyValue ， 并 确认 是 否 有 一 行 数据 因为 行 键 或 是 列 被 跳 过 而 过 滤 。 © 


例 4.13 与 之 前 的 例子 稍 有 不 同 ， 它 使 用 了 不 同 的 过 滤器 来 展示 附加 
类 的 功能 。 


例 4.13 基于 男 一 个 过 滤器 输出 的 结果 使 用 过 滤 右 来 跳 过 结果 











Filter filter1 = new RowFilter(CompareFilter.CompareOp.NOT_EQUAL, 


new BinaryComparator(Bytes.toBytes("row-@5"))); 


Scan scan = new Scan(); 
scan.setFilter(filter1) ; 
ResultScanner scanner1 = table.getScanner(scan) ; 


for(Result result : 


for(KeyValue kv : 


} 


} 


System.out.println("KV: 


scanner 1){ 
result.raw()){ 
"+ kv + ",Value: 


Bytes.toString(kv.getValue())); 


scanner1.close(); 


Filter filter2 = new WhileMatchFilter(filter1 


)3 


scan.setFilter(filter2); 
ResultScanner scanner2 = table.getScanner(scan); 
for(Result result : 


} 
} 


for(KeyValue kv : 
System.out.println("KV: 


scanner2){ 
result.raw()){ 
”+ kv + ",Value: 


Bytes.toString(kv.getValue())); 


scanner2.close(); 


+ 


+ 





运行 示例 代码 ， 可 以 在 控制 合 得 到 如 下 输出 : 


Adding rows to table... 
Results of scan #1: 


KV: 
KV: 
KV: 
KV: 
KV: 


row-@1/colfam1: 
row-@2/colfam1: 
row-@3/colfam1: 
row-@4/colfam1: 
row-@6/colfam1: 


col-00/0/Put/vlen=9, Value: 
col-00/0/Put/vlen=9, Value: 
col-00/0/Put/vlen=9, Value: 
col-00/0/Put/vlen=9, Value: 
col-00/0/Put/vlen=9, Value: 





val-01.00 
val-02.00 
val-03.00 
val-04.00 
val-06.00 


KV: row-07/colfam1:col-00/0/Put/vlen=9,Value: val-07.00 
KV: row-08/colfam1:col-@0/0/Put/vlen=9,Value: val-08.00 
KV: row-09/colfam1:col-@0/0/Put/vlen=9,Value: val-09.00 
KV: row-10/colfam1:col-00/0/Put/vlen=9,Value: val-10.00 
Total KeyValue count for scan #1: 9 

Results of scan #2: 

KV: row-@1/colfam1:col-00/0/Put/vlen=9,Value: val-01.00 
KV: row-@2/colfam1:col-00/0/Put/vlen=9,Value: val-@2.00 
KV: row-@3/colfam1:col-00/0/Put/vlen=9,Value: val-@3.00 
KV: row-04/colfam1:col-00/0/Put/vlen=9,Value: val-04.00 
Total KeyValue count for scan #2: 4 





第 一 个 扫描 使 用 RowFilter 跳 过 十 行 中 的 一 行 ， 其 余 都 被 返回 到 了 
客户 疹 。 第 二 个 扫描 使 用 了 全 匹配 过 滤器 CWhileMatchFilter ) ,在 
遇 到 行 row-85 后 结束 了 整个 扫描 过 程 。 


ee 
«et i 
一 附加 过 滤器 与 其 他 过 滤器 都 实现 了 Filter 接口 。 
这 样 可 以 把 自身 的 功能 与 其 他 过 滤器 加 以 组 合 ， 以 变 成 一 个 
有 新 功能 的 过 滤器 。 





4.1.5 FilterList 


到 目前 为 止 ， 我们 已 经 加 用 户 展示 了 包装 过 的 或 没有 包装 过 的 过 滤 
器 ， 以 及 如 何 通过 某 种 维度 〈 行 、 列 、 厂 本 号 ) 使 用 过 滤器 来 对 表 进 行 
算 选 。 实 际 应 用 中 ， 用 户 可 能 需要 多 个 过 滤 堪 共同 限制 返回 到 客户 端的 
ZR, FilterList (过 滤器 列表 ) 提供 了 这 项 功能 。 





T 
EIR 
一 一 与 其 他 单一 功能 过 滤器 一 样 ，FilterList 类 实现 
了 Filter 接口 。 所 以 它 可 以 通过 组 合 多 个 过 滤器 的 功能 来 实 
现 某 种 效果 ， 从 而 代替 提供 这 类 效果 的 过 滤器 。 





人 


FilterList(List< Filter> rowFilters) 
FilterList(Operator operator) 
FilterList(Operator operator,List< Filter> rowFilters 





参数 rowFilters 以 列表 的 形式 组 合 过 滤器 ， 参 数 operator 决定 
了 组 合 它 们 的 结果 。 表 4-3 提 供 了 一 些 可 选 的 操作 符 ， 默 认 值 是 MUST 
a a aa 0 


表 4-3 FilterList.Operator 的 可 选 枚 举 值 


当 所 有 过 滤器 都 允许 包含 这 个 值 时 ， 这 个 值 才 会 被 包含 在 结果 中 ， 也 








MUST_PASS_ALL i tan eae a 
“一 | 就 是 说 没有 过 滤器 会 忽略 这 个 值 

















只 要 有 一 个 过 滤器 允许 包括 这 个 值 ， 那 这 个 值 就 会 包含 在 结果 中 


当 创 建 FilterList 实例 之 后 ， 可 以 用 以 下 方法 添加 过 滤 堪 : 





void addFilter(Filter filter) 





每 个 FilterList 只 能 添加 一 个 操作 符 ， 但 用 户 可 以 随意 地 向 已 经 
存在 的 FilterList 实例 中 添加 FilterList 实 例 ， 这 样 可 以 构造 一 组 
多 级 的 过 滤器 ， 同 时 它们 可 以 与 用 户 需 要 的 操作 符 进行 组 合 。 


用 户 也 可 以 通过 控制 List 中 过 滤器 的 顺序 来 进一步 精确 地 控制 过 
滤器 的 执行 顺序 。 例 如 ， 使 用 ArrayList 可 以 保证 过 滤器 的 执行 顺序 与 
它们 添加 a 到 列表 中 的 顺序 一 至。 具体 见 例 4.14。 


例 4.14 ”使 用 过 滤器 列表 组 合 单一 功能 的 过 滤 需 








List< Filter> filters = new ArrayList< Filter>(); 


Filter filter1 = new RowFilter(CompareFilter.CompareOp.GREATER_OR_EQUAL, 
new BinaryComparator(Bytes.toBytes("row-@3"))); 
filters.add(filter1) ; 


Filter filter2 = new RowFilter(CompareFilter.CompareOp.LESS OR EQUAL, 
new BinaryComparator(Bytes.toBytes("row-@6"))); 
filters.add(filter2) ; 


Filter filter3 = new QualifierFilter(CompareFilter.CompareOp.EQUAL, 
new RegexStringComparator("col-@[03]")); 
filters.add(filter3) ; 


FilterList filterList1 = new FilterList(filters); 


Scan scan = new Scan(); 
scan.setFilter(filterList1) ; 
ResultScanner scanner1 = table.getScanner(scan) ; 
for(Result result : scanner1){ 

for(KeyValue kv : result.raw()){ 

System.out.println("KV: " + kv + ",Value: " + 
Bytes. toString(kv.getValue())); 

} 

} 


scanner1.close(); 


FilterList filterList2 = new FilterList( 
FilterList.Operator.MUST_PASS_ONE, filters); 


scan.setFilter(filterList2) ; 
ResultScanner scanner2 = table.getScanner(scan) ; 
for(Result result : scanner2){ 
for(KeyValue kv : result.raw()){ 
System.out.printin("KV: " + kv + ",Value: "+ 
Bytes. toString(kv.getValue())); 
} 
} 


scanner2.close(); 











Nata Pea is SVE Bo, Ibe PER —A 
过 滤器 过 滤 了 该 数据 ， 该 数据 都 会 被 丢弃 。 只 有 当 数 据 经 过 了 所 有 过 滤 
需 的 筛选 才 会 被 传 回 客户 端 。 


相反 ， 第 二 个 扫描 结果 中 包含 了 所 有 的 行 和 列 。 这 是 因 
为 FilterList 操作 符 是 MUST_PASS_ONE ， 只 要 数据 通过 了 一 个 过 滤器 
的 过 滤 就 会 被 返回 ， 再 则 由 于 所 有 的 行 都 至 少 守 合 一 个 过 滤器 的 要 求 ， 
所 以 所 有 行 都 被 返回 了 。 


4.1.6 Axe CVE A 

最 后 ， 用 户 可 能 需要 按 各 自 的 需求 实现 自 定 义 过 滤器 。 用 户 可 以 实 
现 Filter 接口 或 者 直接 继承 FilterBase 类 ， 后 者 已 经 为 接口 中 所 有 
成 员 方 法 提供 了 默认 实现 。 


Filter 接口 的 结构 如 下 : 

















public interface Filter extends Writable { 
public enum ReturnCode { 
INCLUDE , SKIP,NEXT_COL,NEXT_ROW, SEEK NEXT USING HINT 


} 

public void reset() 

public boolean filterRowKey(byte[] buffer,int offset,int length) 
public boolean filterAllRemaining() 

public ReturnCode filterKeyValue(KeyValue v) 

public void filterRow(List< KeyValue> kvs) 

public boolean hasFilterRow() 

public boolean filterRow() 

public KeyValue getNextKeyHint(KeyValue currentKV) 


接口 中 有 一 个 公有 的 枚 举 类 型 ， 叫 做 ReturnCode ， 它 被 
filterKeyValue() 方法 用 于 通知 执行 框架 ， 进 而 决定 如 何 进行 下 一 步 
的 工作 。 过 滤器 可 以 跳 过 一 个 值 、 一 列 的 剩余 部 分 或 一 行 的 剩余 部 分 ， 
而 不 用 遍历 所 有 数据 。 因 此 获取 数据 的 效率 会 大 大 提升 。 





wv A 


as + 
| RE, 
服务 器 端 可 能 还 是 需要 遍历 oe 
据 ， 不 过 使 用 filterKeyValue() 提供 的 返回 值 优化 后 还 
可 以 减少 许多 工作 量 。 








表 4-4 展 示 了 所 有 的 取 值 以 及 每 个 值 对 应 的 含义 。 


表 4-4 Filter.ReturnCode 的 值 类 型 


在 结果 中 包括 这 个 keyvalue 实例 
跳 过 这 个 keyvalue 实例 并 继续 处 理 接 下 来 的 工作 
































跳 过 当前 列 并 继续 处 理 后 面 的 列 。 例 如 ，TimestampsFilter 使 用 了 这 个 返 
回 值 

| 与 上 面 的 行为 相似 ， 跳 过 当前 行 并 继续 处 理 下 一 行 。 例 如 ，Rowrilter 使 
用 了 这 个 返回 值 
































SEEK _ 一 些 过 滤器 需要 跳 过 一 系列 的 值 ， 此 时 需要 使 用 这 个 返回 值 通 知 执行 杠 














NEXT > 架 使 用 getNextkeyHint() 来 决定 跳 到 什么 位 置 。 例 如 ，columnPrefixFilter 
etree 使 用 了 这 个 功能 











上 面 的 大 多 数 方法 都 在 客户 端 获取 检索 操作 《〈 如 扫描 操作 ) 的 不 同 
阶段 时 被 调用 。 调 整 调用 次 序 ， 用 户 可 以 以 如 下 的 预期 顺序 执行 。 


filterRowKey(byte[] buffer, int offset, int length) 





本 方法 使 用 Filter 的 实现 方法 检查 行 键 ， 用 户 可 以 跳 过 整 行 数据 
以 避免 之 后 的 处 理 。RowFilter 使 用 这 个 方法 来 簿 选 符合 条 件 的 行 并 返 
回 给 客户 并 。 


filterKeyValue(KeyValue v) 








如 果 本 行 数据 没有 被 之 前 的 方法 过 滤 掉 ， 那 么 执行 框架 会 调用 这 个 
方法 检查 这 一 行 中 每 个 KeyValue 实例 。 同 时 按照 ReturnCode 处 理 当 
前 值 。 


filterRow(List< KeyValue> kvs) 








一 旦 所 有 行 和 列 经 过 之 前 两 个 方法 的 检查 之 后 ， 这 个 方法 就 会 被 调 
用 。 本 方法 让 用 户 可 以 访问 之 前 两 个 方法 筛选 出 来 的 KeyValue 实 
例 。DependentColumnFilter 过 滤器 使 用 这 个 方法 来 过 滤 与 参考 列 不 
匹配 的 数据 。 


filterRow() 


以 上 所 有 方法 调用 完成 之 后 ，filterRow() 方法 会 被 执 
行 。PageFilter 使 用 当前 方法 来 检查 在 一 次 欠 代 分 页 中 返回 的 行 数 是 
否 达 到 预期 的 页 大 小 ， 如 果 达 到 页 大 小 则 返回 true 。 默 认 返 回 值 
是 false ， 此 时 结果 中 包含 当前 行 。 


在 达 代 扫 摘 中 为 每 个 新 行 重 置 过 滤器 。 服 务 嚣 端 读 取 一 行 数据 后 ， 
这 个 方法 会 被 隐 式 地 调用 。 这 个 方法 在 get 和 scan 中 都 会 被 按 以 上 规则 调 
用 ， 很 明显 它 对 于 前 者 没有 任何 效果 ， 因 为 get 只 取 单 独 的 一 行 。 


filterAllRemaining() 


当 这 个 方法 返回 true 时 ， 可 以 用 于 结束 整个 扫 摘 操作。 用 户 使 用 
这 个 方法 被 过 滤器 用 于 提供 上 述 的 优化 一 一 提前 结束 。 在 一 个 过 滤 
中 ， 如 果 这 个 方法 返回 false ， 扫 描 操 作 会 继续 执行 ， 同 时 前 面 介绍 的 
方法 会 被 再 次 调用 。 显 然 ， 这 个 方法 对 get 操作 也 没有 用 。 




















filterRow() 和 批量 处 理 模式 


一 个 过 滤器 使 用 filterRow( ) 过 滤 行 或 使 
用 filterRow(List) 修改 返回 结果 列表 时 ， 必 需 重 
载 hasRowFilter() 方法 让 其 返回 true 。 


框架 使 用 这 个 标志 位 来 保证 过 涯 器 与 扫描 操作 的 各 个 
参数 兼容 。 特 别 是 当 这 些 过 滤 需 与 扫描 的 批量 处 理 模 式 冲 
突 时 : 当 扫 描 使 用 批量 处 理 模式 传送 数据 时 ， 之 前 介绍 的 
方法 不 会 在 每 次 批量 操作 时 调用 ， 而 是 在 当前 行 数据 结束 


时 被 调用 。 





图 4-2 展 示 了 处 理 一 行 数据 时 ， 过 滤器 中 各 方法 的 逻辑 流程 。 还 有 
一 些 更 细 化 的 流程 是 关于 过 滤器 如 何在 列 级 别 中 起 作用 的 ， 但 这 些 内 容 
并 没有 被 包含 到 这 张 图 中 。 
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图 4-2 ”过 滤器 处 理 
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流程 





例 4.15 基 于 FilterBase 提供 的 方法 实现 了 一 个 自 定 义 过 滤器 ， 并 
重 载 了 需要 修改 的 方法 。 过 滤器 首先 假设 所 有 行 都 要 被 过 滤 掉 ， 也 就 是 
说 ， 所 有 行 都 不 在 结果 中 返回 。 只 有 当 有 任意 一 列 中 的 值 与 设 定 值 相等 














本 才 会 被 返回 到 客户 端 。 


例 4.15 ”实现 一 个 只 让 一 些 特定 行 通过 的 过 滤器 


F 
i 








public class CustomFilter extends FilterBase{ 


private byte[] value = null; 
private boolean filterRow = true; 


public CustomFilter() { 
super(); 


} 


public CustomFilter(byte[] value){ 
this.value = value;@e 


} 


@Override 
public void reset() { 
this.filterRow = true;je 


} 


@Override 
public ReturnCode filterKeyValue(KeyValue kv){ 
if(Bytes.compareTo(value,kv.getValue())== @){ 
filterRow = false;e 
} 
return ReturnCode. INCLUDE; @ 


} 


@Override 
public boolean filterRow() { 
return filterRow;e 


} 


@Override 

public void write(DataOutput dataOutput)throws IOException { 
Bytes .writeByteArray(data0utput,this.value);j© 

} 


@Override 
public void readFields(DataInput dataInput)throws IOException { 
this.value = Bytes.readByteArray(dataInput) 590 
} 
} 


pT 


加 设置 要 比较 的 值 。 
男 每 当 有 新 行 时 重 置 过 滤器 的 标志 位 。 
命 当 有 值 匹配 设 定 值 时 ， 让 这 一 行 通过 过 滤 。 


@ 总 是 先 包 售 KeyValue 实例 ， 直 到 filterRow() 决定 是 否 过 滤 这 
行 。 





加 这 是 实际 上 决定 数据 是 否 被 返回 的 一 行 代码 ， 其 基于 标志 位 判 


@ 把 设 定 值 写 到 Data0utput 中 ， 服 务 器 端 实例 化 过 滤器 时 可 以 读 
到 设 定 值 。 


@ 服 务 端 使 用 这 个 方法 来 初始 化 过 滤器 实例 ， 所 以 客户 端的 设 定 值 
可 以 被 读 到 。 


FAP A re YE a a E 


一 旦 用 户 完成 过 滤器 的 编写 就 需要 将 其 部 车 到 HBase 
上 上。 用 户 首 先 需 要 编译 好 这 个 类 ， 同 时 打 成 JAR 包 ， 并 保 
证 可 以 被 region 服 务 器 调用 。 








用 户 可 以 使 用 编译 系统 来 准备 配置 用 的 JAR 文 件 ， 同 
时 使 用 配置 管理 系统 把 文件 分 发 到 每 个 region 服 务 器 中 。 文 
件 分 发 完成 后 用 户 需 要 修改 hbase-env.sh 文件 ， 如 下 : 


# Extra Java CLASSPATH elements. Optional. 


# export HBASE_CLASSPATH= 
export HBASE_CLASSPATH="/hbase-book/ch@4/target/hbase-book-ch04-1.@. jar" 





使 用 Maven 从 本 书 的 源码 中 编译 出 JAR 文 件 。 因 为 在 单 
机 模式 下 安装 ， 所 以 这 里 使 用 绝对 路 径 ， 也 就 是 说 开发 环 
境 和 HBase 在 同一 个 物理 机 上 。 


注意 用 户 需要 重 局 HBase 的 守护 进程 ， 才 能 使 配置 生 
效 。 完 成 这 些 工 作 之 后 就 可 以 测试 过 滤 占 的 功能 


例 4.16 使 用 了 新 的 用 户 自 定义 过 滤器 来 查找 包含 特定 值 的 行 ， 同 时 
还 使 用 了 FilterList 。 


例 4.16 使 用 用 户 自 定义 过 滤器 





List< Filter> filters = new ArrayList< Filter>(); 


Filter filter1 = new CustomFilter(Bytes.toBytes("val-65.05") ); 
filters.add(filter1); 


Filter filter2 = new CustomFilter(Bytes .toBytes("val-02.07")); 
filters.add(filter2); 


Filter filter3 = new CustomFilter(Bytes.toBytes("val-09.00")); 
filters.add(filter3); 


FilterList filterList = new FilterList( 
FilterList.Operator.MUST_PASS_ONE, filters); 


Scan scan = new Scan(); 
scan.setFilter(filterList); 
ResultScanner scanner = table.getScanner(scan); 
for(Result result : scanner){ 

for(KeyValue kv : result.raw()){ 


System.out.println("KV: + kv + ",Value: + 
Bytes. toString(kv.getValue())); 


} 
} 


scanner.close(); 





使 用 以 上 例子 ， 应 当 会 有 如 下 输出 : 


Adding rows to table... 

Results of scan: 

KV: row-02/colfam1: col-@0/1301507323088/Put/vlen=9, Value: 
KV: row-02/colfam1:col-@1/1301507323090/Put/vlen=9, Value: 
KV: row-02/colfam1:col-@2/1301507323092/Put/vlen=9, Value: 
KV: row-02/colfam1:col-@3/1301507323093/Put/vlen=9, Value: 
KV: row-02/colfam1:col-04/1301507323096/Put/vlen=9, Value: 
KV: row-@2/colfam1:col-@5/1301507323104/Put/vlen=9, Value: 
KV: row-02/colfam1:col-@6/1301507323108/Put/vlen=9, Value: 
KV: row-0@2/colfam1:col-@7/1301507323110/Put/vlen=9, Value: 
KV: row-02/colfam1:col-@8/1301507323112/Put/vlen=9, Value: 
KV: row-02/colfam1:col-09/1301507323113/Put/vlen=9, Value: 
KV: row-0@5/colfam1: col-@0/1301507323148/Put/vlen=9, Value: 
KV: row-05/colfam1:col-@1/1301507323150/Put/vlen=9, Value: 
KV: row-05/colfam1:col-@2/1301507323152/Put/vlen=9, Value: 
KV: row-0@5/colfam1:col-@3/1301507323153/Put/vlen=9, Value: 
KV: row-05/colfam1:col-04/1301507323154/Put/vlen=9, Value: 
KV: row-05/colfam1:col-@5/1301507323155/Put/vlen=9, Value: 
KV: row-0@5/colfam1:col-@6/1301507323157/Put/vlen=9, Value: 
KV: row-0@5/colfam1:col-@7/1301507323158/Put/vlen=9, Value: 
KV: row-0@5/colfam1:col-@8/1301507323158/Put/vlen=9, Value: 
KV: row-0@5/colfam1:col-@9/1301507323159/Put/vlen=9, Value: 
KV: row-09/colfam1: col-@0/1301507323192/Put/vlen=9, Value: 
KV: row-09/colfam1:col-@1/1301507323194/Put/vlen=9, Value: 
KV: row-09/colfam1:col-@2/1301507323196/Put/vlen=9, Value: 
KV: row-09/colfam1:col-@3/1301507323199/Put/vlen=9, Value: 
KV: row-09/colfam1:col-04/1301507323201/Put/vlen=9, Value: 
KV: row-09/colfam1:col-@5/1301507323202/Put/vlen=9, Value: 
KV: row-09/colfam1:col-06/1301507323203/Put/vlen=9, Value: 
KV: row-09/colfam1:col-@7/1301507323204/Put/vlen=9, Value: 
KV: row-09/colfam1: col-@8/1301507323205/Put/vlen=9, Value: 
KV: row-09/colfam1:col-09/1301507323206/Put/vlen=9, Value: 





与 预期 的 一 样 ， 一 行 中 有 一 列 的 值 与 预定 值 匹配 时 ， 这 一 行 数 据 就 
会 被 包含 在 返回 结果 中 。 


41.7 过 滤器 总 结 


表 4-5 展 示 了 默认 提供 的 过 滤器 中 的 一 些 属性 和 兼容 性 。 标 注 V 说 明 
属性 可 用 ， 标 注 x 表 示 属 性 缺失 。 


表 4-5 ”过 滤器 属性 和 它们 之 间 的 兼 和 
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.过 滤器 可 以 支持 Scan.setBatch() 方法 ， 也 就 是 说 可 以 文 持 扫 描 的 批量 模式 。 





.过 滤器 可 以 被 SkipFilter 类 包装 。 


， 过 滤器 可 以 被 NhileMatchFilter 类 


aJ 











， EIERN T REREN NERIMA 
.过 滤器 可 以 在 Get 实例 中 发 挥 作 用 。 

.过 滤器 可 以 在 Scan 实例 中 发 挥 作用 。 
， 依赖 于 被 包含 的 过 滤器 。 














符合 














装 。 
.过 滤器 可 以 被 合并 到 FilterList 类 中。 








条 件 的 行 之 后 提前 停止 扫描 操作 。 














4.2 ”计数 器 


除了 以 上 讨论 的 功能 之 外 ，HBase 还 有 一 个 高 级 功能 : 计数 器 
(counter) 。 许 多 收集 统计 信息 的 应 用 有 点 击 流 或 在 线 广告 意见 ， 这 些 
应 用 需要 被 收集 到 日 志文 件 中 用 于 后 续 的 分 析 。 用 户 可 以 使 用 计数 器 做 
实时 统计 ， 从 而 放弃 延 时 较 高 的 批量 处 理 操作 。 


4.2.1 计数 器 简介 


与 之 前 介绍 的 原子 操作 检查 并 修改 Ccheck-and-modify) 一样 ， 
HBase 也 有 一 种 机 制 可 以 将 列 当 作 计 数 器 。 人 否则 ， 如 果 用 户 需要 对 一 行 
数据 加 锁 ， 然 后 读 取 数据 ， 再 对 当前 数据 做 加 法 ， 最 后 写 回 HBase 并 释 
放 该 行 锁 ， 从 而 其 他 写 程序 可 以 访问 该 行 数 据 。 这 样 做 会 引起 大 量 的 资 
源 元 争 问 题 ， 尤 其 是 当 客 户 端 进程 朋 尝 之后， 尚未 释放 的 锁 需 要 等 待 超 
时 恢复 一 一 这 会 在 一 个 高 负载 的 系统 中 引起 灾难 性 的 后 有 果 。 

客户 端 API 提 供 了 专门 的 方法 来 完成 这 种 读 取 并 修改 〈read-and- 
modify) 操作 ， 同 时 在 单独 一 次 客户 端的 调用 过 程 中 保证 原子 性 。 早 期 
的 HBase 版 本 只 会 在 每 次 计数 器 更 新 操作 中 使 用 一 个 RPC 请 求 ， 不 过 新 
版 本 的 HBase 中 CRUD 操 作 (参考 阅读 3.2 市 ) 开始 使 用 与 此 相同 的 机 
制 ， 让 许多 更 新 计数 器 的 请 求 都 可 以 在 一 次 RPC 中 完成 。 


pe 
ES 虽然 用 户 可 以 一 次 更 新 多 个 计数 器 ， 但 它们 都 必须 
属于 同一 行 。 更 新 多 行 的 计数 器 需要 通过 独立 的 API 调 用 ， 即 
多 个 RPC 请 求 。batch() 方法 调用 目前 并 不 文 持 Increment 

实例 ， 不 过 这 种 情况 今后 可 能 会 改变 。 



































用 户 分 别 了 解 每 个 类 型 之 前 ， 还 需要 了 解 一 些 计数 器 在 列 一 级 的 工 
作 细节 。 以 下 是 用 Shell 创 建 表 之 后 ， 两 次 增加 同一 个 计数 器 的 值 ， 最 后 





查询 计数 需 当 前 值 的 例子 。 


hbase(main):661:6> create 'counters','daily','weekly','monthly' 


@ row(s)in 1.1936 seconds 


hbase(main):@02:@> incr ‘counters’, '20110101', 'daily:hits',1 


COUNTER VALUE = 1 


hbase(main):003:@> incr ‘counters’, '20110101', 'daily:hits',1 


COUNTER VALUE = 2 


hbase(main):04:@> get_counter ‘counters’ ,'20110101','daily:hits' 


COUNTER VALUE 





每 次 incr 调用 返回 这 个 计数 器 的 新 值 。 最 后 检查 时 使 用 了 get 
_counter, 并 显示 当前 计数 器 值 与 所 预期 的 一 致 。 
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”终端 的 incr 命令 格式 如 下 : 





incr '< table>','< row>','< column>',[< increment-value>] 


初始 化 计数 器 





用 户 不 用 初始 化 计数 器 ， 当 用 户 第 一 次 使 用 计数 器 
时 ， 计 数 器 将 被 自动 设 为 0， 也 就 是 说 当 用 户 创 建 一 个 新 列 
时 ， 计 数 器 的 值 是 0。 第 一 次 增加 操作 会 返回 1 或 增加 设 定 
的 值 。 用 户 也 可 以 直接 读 写 一 个 计数 右 ， 不 过 需要 使 用 以 
下 方法 来 解码 : 


Bytes.toLong() 


并 使 用 以 下 方法 来 编码 : 


Bytes.toBytes(long) 





特别 是 对 于 后 一 种 情况 ， 需 要 保证 参数 是 长 整 型 的 





(long) 。 用 户 也 可 以 直接 将 变量 或 数字 类 型 转换 为 长 整 
A F a 


byte[] b1 = Bytes.toBytes(1L) 
byte[] b2 = Bytes.toBytes((long)var) 





如 果 用 户 使 用 put 方法 错误 地 初始 化 了 一 个 计数 器 
值 ， 用 户 可 能 会 经 历 如 下 过 程 : 





hbase(main):001:0> put ‘counters’, ，26116161' 'daily:clicks','1' 


© row(s)in 0.0540 seconds 








FAL Se BP Bas AEN Se FS BG PGR: 





hbase(main):@13:@> incr ‘counters’, '20110101', 'daily:clicks',1 


COUNTER VALUE = 3530822107858468865 





这 个 结果 不 是 预期 中 的 2! 这 是 因为 put 方法 按 错误 的 
EINTE T AA: 值 是 字符 1， 同 时 这 个 值 是 一 个 字 市 ， 
并 不 是 表示 Java 语 言 中 长 度 为 8 的 long 类 型 值 的 字 节 数组 








注意 : 这 一 个 字 节 被 Shell 当 做 字 节 数组 存储 时 ， 最 高 
位 被 设 为 ASCII 码 的 字母 1 的 值 49， 这 是 基于 Ruby 的 Shell 脚 
本 接收 到 的 用 户 输入 值 。 增 加 这 个 值 的 最 低位 字 节 同时 将 
其 转化 为 long 类 型 ， 就 会 得 到 非常 大 并 且 难 以 预期 的 数 
值 ， 如 前 面 代码 中 的 COUNT VALUE 所 示 : 








hbase(main):001:0> include_class org.apache.hadoop.hbase.util.Bytes 


=> Java: :OrgApacheHadoopHbaseUtil: : Bytes 
hbase(main) :002:@> Bytes: :toLong([49,0,0,0,0,0,0,1].to_java :byte) 


=> 3530822107858468865 





用 户 可 以 使 用 get 请 求 访问 这 个 计数 器 ， 结 果 如 下 : 


hbase(main):005:0> get ‘counters’, '20110101' 


COLUMN CELL 

daily:hits timestamp=1301570823471, value=\x0@0\x00\x00\x00\x00\x80\x80\x 
02 
1 row(s)in 0.0600 seconds 





IE BAG RR ERE, BEAR T AiE SA 
其 他 列 类 似 的 简单 列 。 用 户 也 可 以 指定 一 个 更 大 的 递增 值 : 





hbase(main):006:0> incr ‘counters’, 


'20110101' , 'daily:hits' ,20 


COUNTER VALUE = 22 


hbase(main):007:@> get ‘counters’, '20110101' 


COLUMN CELL 

daily:hits timestamp=1301574412848, value=\x0@0\x00\x00\x00\x00\x80\x80\x 
16 
1 row(s)in 0.0400 seconds 


hbase(main):008:@> get_counter ‘counters’, 


"20110101', 'daily:hits' 


COUNTER VALUE = 22 





用 户 直 接 读 取 计 数 占 时 得 到 的 是 字 节 数组 ，Shell 把 每 个 字 节 按 十 六 
进 制 数 打印 。 代用 ge ya eae a 回 数据 ， 并 确认 递 
增 数 据 可 行 ， 并 且 与 预期 一 致 。 


最 后 ， 用 尸 不 只 可 以 用 incr 命令 来 对 一 个 计数 需 加 值 ， 也 可 以 取 
回 计数 费 当 前 值 或 者 减少 当前 值 。 实 际 上 ， 用 户 也 可 以 完全 忽略 初始 
值 ， 上 默认 情况 下 是 1。 





hbase(main):004:@> incr ‘counters’, '20110101', 


"daily:hits' 


COUNTER VALUE = 3 


hbase(main):@@5:@> incr ‘counters’, '20110101', 'daily:hits' 


COUNTER VALUE = 4 


hbase(main):006:@> incr ‘counters’, '20110101', 'daily:hits' ,6 


COUNTER VALUE = 4 


hbase(main):007:0> incr ‘counters’, '20110101', 'daily:hits',-1 


COUNTER VALUE = 3 


hbase(main):008:@> incr ‘counters’, '20110101', 'daily:hits',-1 


COUNTER VALUE = 2 





使 用 增加 值 ， 即 incr 命令 的 最 后 一 个 参数 ， 用 户 可 以 在 表 4-6 中 观 
察 不 同 值 带 来 的 行为 影响 。 


表 4-6 ”增加 值 和 对 计数 器 产生 的 作用 
| 
比 零 大 的 值 “| 按 给 定 值 增加 计数 器 中 的 数值 
直 



































得 到 计数 器 的 当前 值 ， 与 Shell 命 令 get _counter 的 返回 值 相 同 
比 零 小 的 值 | 减少 计数 器 的 当前 值 


显然 ， 使 用 incr 命令 只 能 一 次 操作 一 个 计数 希 。 有 用户 也 可 以 使 用 








后 面 介 绍 的 客户 端 API 操 作 计 数 器 。 
4.2.2 单 计 数 器 


第 一 种 增加 操作 只 能 操作 一 个 计数 器 : 用 户 需 要 自己 设 定 列 ， 方 法 
由 HTable 提供 ， 如 下 所 示 : 





long incrementColumnValue(byte[] row,byte[] family,byte[] qualifier, 
long amount) throws IOException 

long incrementColumnValue(byte[] row,byte[] family,byte[] qualifier, 
long amount,boolean writeToWAL) throws IOException 





这 两 种 方法 都 需要 提供 列 的 坐标 《coordinates) 和 增加 值 ， 除 此 之 
外 这 两 种 方法 只 在 参数 writeToNAL 上 有 差别 ， 这 个 参数 的 作用 
KPut.setWriteTowAL() 方法 一 致 。 


忽略 该 参数 会 直接 使 用 默认 值 true ， 也 就 是 说 ，WAL 是 有 效 的 。 
抛 开 这 个 参数 ， 用 户 可 以 按照 下 面 的 示例 轻松 地 使 用 这 些 方法 。 
例 4.17 ”使 用 单 计 数 堪 目 增 方法 
HTable table = new HTable(conf,"counters"); 


long cnt1 = table.incrementColumnValue(Bytes.toBytes("20110101") ,@ 
Bytes.toBytes("daily"),Bytes.toBytes("hits"),1); 

long cnt2 = table.incrementColumnValue(Bytes.toBytes("20110101") ,@ 
Bytes.toBytes("daily"),Bytes.toBytes("hits"),1); 


long current = table.incrementColumnValue(Bytes.toBytes ("20110101") ,e 
Bytes.toBytes("daily"),Bytes.toBytes("hits"),@); 


long cnt3 = table.incrementColumnValue(Bytes.toBytes("20110101") ,@ 
Bytes.toBytes ("daily") , Bytes.toBytes ("hits") , -1) ; 





四 计数 器 值 加 1。 

外 第 二 次 给 计数 器 值 加 1。 

全 得 到 计数 器 当前 值 ， 不 做 自 增 操作 。 
四 计数 器 值 减 1。 


对 应 的 输出 如 下 : 


cnt1: 1,cnt2: 2,current: 2,cnt3: 1 


与 之 前 使 用 的 Shell 命 令 一 样 ，API 调 用 也 有 相同 的 作用 : 使 用 正 值 


时 增加 了 计数 需 的 值 ， 使 用 0 时 可 以 得 到 当前 计数 器 的 值 ， 使 用 负 值 时 
可 以 减少 当前 计数 器 的 值 。 


4.2.3 多 计数 器 


另 一 个 增加 计数 器 值 的 途径 是 HTable() 的 方法 increment() 。 工 
作 模 式 与 CRUD 操 作 类 似 ， 请 使 用 以 下 方法 完成 该 功能 : 


Result increment(Increment increment) throws IOException 


用 户 需 要 创建 一 个 Increment 实例 ， 同 时 需要 填充 一 些 相应 的 细节 
到 该 实例 中 ， 例 如 ， 计 数 器 的 坐标 。 构 造 器 如 下 : 





Increment() {} 
Increment(byte[] row) 
Increment(byte[] row,RowLock rowLock) 





用 户 构 造 Increment 实例 时 需要 传 入 行 键 ， 此 行 应 当 包 含 此 实例 需 
要 通过 increment() 方法 修改 的 所 有 计数 器 。 


可 选 参数 rowLock 设置 了 用 户 自 定义 锁 实例 ， 这 样 可 以 使 本 次 操作 
完全 在 用 户 的 控制 下 完成 ， 例 如 ， 当 用 户 需要 多 次 修改 同一 行 时 ， 可 以 
保证 其 间 此 行 不 被 其 他 写 程 序 修改 。 





| 
pe 
用 户 无 法 限制 读 操 作 。 事 实 上 ， 这 里 并 没有 保证 读 操 作 的 原 
子 性 。 


因为 读 操作 不 需要 获取 锁 ， 所 以 它 可 能 读 到 一 行 中 被 修 
改 到 一 半 的 数据 ! scan 和 get 操 作 同 样 会 出 现 这 种 情况 。 





一 旦 用 户 使 用 行 键 创建 了 一 个 Increment 实例 ， 就 需要 向 其 中 加 入 
实际 的 计数 器 ， 也 就 是 次 ， 用 户 需要 增加 列 ， 使 用 方法 如 下 : 


Increment addColumn(byte[] family,byte[] qualifier,long amount) 


与 Put MAART eB HE OR BC AS IN ER: 当做 增加 
操作 时 ， 版 本 部 被 隐 式 处 理 了 。 同 样 ， 这 里 没有 addFamily() 方法 ， 
Se 所 以 需要 特定 如 此 ， 因 此 去 添加 一 个 列 族 是 
没有 意义 的 。 


Increment 类 的 特别 功能 是 可 以 添加 一 个 时 间 范 围 : 





Increment setTimeRange(long minStamp,long maxStamp) 
throws IOException 





设 定 计数 器 的 时 间 范 围 与 之 前 提 到 的 版 本 被 隐 式 处 理 相 比 有 些 奇 
怪 。 时 间 范 围 被 送 到 服务 器 端 来 限制 内 部 的 get 操作 来 取得 当前 这 些 计 
Basie. APA DER ER TT eas HA Cexpire) ， 例 如 ， 用 时 间 
划分 一 行 的 计数 器 : 用 户 限制 时 间 范 围 ， 可 以 用 来 屏蔽 比较 老 的 计数 
器 ， 使 它们 看 上 去 不 存在 。 一 次 增加 操作 会 认为 这 此 较 老 的 计数 器 不 存 





在 ， 并 把 它们 重 置 为 1。 
Increment 类 提供 的 其 他 方法 见 表 4-7。 


表 4-7 Increment 类 的 附加 方法 概览 























getRow() 返回 创建 Increment 实例 时 指定 的 行 键 值 


= i es ak " ee ‘i 


ee 返回 构造 器 中 可 选 参数 rowLock 的 锁 ID， 如 果 没 有 设置 的 
getLockId() 话 ， 默 认 该 值 为 -1L 
许 用 户 禁 用 本 次 操作 服务 器 端 默认 的 WAL 功 能 
返回 是 否 在 本 次 操作 中 启用 WAL 功 能 


返回 与 Increment 实例 相关 的 时 间 范 围 ， 可 以 使 
HsetTimestamp() 方法 进行 设 定 
























































getTimeRange() 





























ee FamilyMap 的 大 小 ， 其 中 包括 添加 的 所 有 列 的 
Wi 


numFamilies() 





numColumns() | 回 将 要 被 处 理 的 列 的 数 H 


检查 是 否 | 列 或 列 族 被 添加 到 这 个 Increment 实例 中 





使 用 户 可 以 访问 addcolumn() 方法 添加 的 列 。FamilyMap 的 
键 存 储 的 是 列 族 名 称 ， 相 应 的 值 是 添加 过 的 列 族 下 列 的 











| 玉兰 直 列席 的 是 六 便于 六 条 


话说 就 是 一 个 只 包括 列 族 名 的 集合 




















与 上 面 命令 行 的 例子 相似 ， 例 4.18 使 用 了 多 个 增加 值 来 增加 、 获 取 
或 减少 一 个 计数 器 的 值 。 


例 4.18 增加 一 行 中 多 个 计数 器 的 计数 


Increment increment1 = new Increment(Bytes.toBytes("26116161" ) ) ; 


increment1.addColumn(Bytes.toBytes("daily"),Bytes.toBytes("clicks"), 1); 
increment1.addColumn(Bytes.toBytes("daily"),Bytes.toBytes("hits"), 1);@ 
increment1.addColumn(Bytes.toBytes("weekly"),Bytes.toBytes("clicks"), 10); 
increment1.addColumn(Bytes.toBytes("weekly"),Bytes.toBytes("hits"), 10); 


Result result1 = table.increment(increment1) ;@ 


for (KeyValue kv : result1.raw()){ 
System.out.printin("KV: " + kv + 
"Value: " + Bytes.toLong(kv.getValue()));6 


} 


Increment increment2 = new Increment (Bytes.toBytes("20110101") ); 


increment2.addColumn(Bytes.toBytes("daily"),Bytes.toBytes("clicks"),5); 
increment2.addColumn(Bytes.toBytes("daily"),Bytes.toBytes("hits"), 1); 
increment2.addColumn(Bytes.toBytes("weekly"),Bytes.toBytes("clicks"), ©); 
increment2.addColumn(Bytes.toBytes("weekly"),Bytes.toBytes("hits"), -5); 


Result result2 = table.increment(increment2) ; 


for(KeyValue kv : result2.raw()){ 
System.out.printin("KV: " + kv + 
"Value: " + Bytes.toLong(kv.getValue())); 





@ 使 用 不 同 的 增加 值 增加 计数 器 的 计数 。 
全 使 用 上 述 的 计数 器 更 新 值 调用 实际 的 增加 方法 ， 并 得 到 返回 结 


OFT EKeyVaule 和 返回 的 计数 器 计数 结果 。 
他 使 用 正 、 负 和 零 增 加 值 来 修改 计数 器 值 。 





运行 上 面 例子 的 输出 如 下 : 


: 20110101/daily:clicks/1301948275827/Put/vlen=8 Value: 1 

: 20110101/daily:hits/1301948275827/Put/vlen=8 Value: 1 

: 20110101/weekly:clicks/1301948275827/Put/vlen=8 Value: 10 
: 20110101/weekly:hits/1301948275827/Put/vlen=8 Value: 10 


: 20110101/daily:clicks/1301948275829/Put/vlen=8 Value: 6 


: 20110101/daily:hits/1301948275829/Put/vlen=8 Value: 2 
: 20110101/weekly:clicks/1301948275829/Put/vlen=8 Value: 10 
: 20110101/weekly:hits/1301948275829/Put/vlen=8 Value: 5 





比较 两 次 得 到 的 结果 ， 用 户 可 以 肥 现 达到 的 效果 如 所 预料 的 一 样 。 


4.3 协 处 理 需 


到 目前 为 止 ， 用 户 已 经 掌握 了 如 何 使 用 过 滤器 来 减少 服务 器 端 通过 
网 络 返 回 到 客户 端的 数据 量 。HBase 中 还 有 一 些 特性 让 用 户 甚 至 可 以 把 
一 部 分 计算 也 移动 到 数据 的 存放 端 : Hab (coprocessor) 。 


4.3.1 协 处 理 器 简介 


使 用 客户 端 API， 配 合 科 选 机 制 ， 例 如 ， 使 用 过 滤器 或 限制 列 族 的 
范围 ， 都 可 以 控制 被 返回 到 客户 端的 数据 量 。 如 果 可 以 更 进一步 优化 会 
更 好 ， 例 如 ， 数 据 的 处 理 流 程 直接 放 到 服务 器 端 执行 ， 然 后 仅 返 回 一 个 
小 的 处 理 结果 集 。 这 类 似 于 一 个 小 型 的 MapReduce 框 架 ， 访 框架 将 工作 
分 发 到 整个 集群 。 


协 处 理 器 允许 用 户 在 region 服 务 器 上 运行 自己 的 代码 ， 更 准确 地 说 
是 允许 用 户 执行 region 级 的 操作 ， 并 且 可 以 使 用 与 RDBMS 中 触发 器 
(trigger) 类 似 的 功能 。 在 客户 端 ， 用 户 不 用 关心 操作 具体 在 哪里 执 
行 ，HBase 的 分 布 式 框架 会 帮助 用 户 把 这 些 工作 变 得 透明 。 


这 里 用 户 可 以 监听 一 些 隐 式 的 事件 ， 并 利用 其 来 完成 一 些 辅助 任 
务 。 如 果 这 些 还 不 够 ， 用 户 还 可 以 自己 扩展 现 有 的 RPC 协 议 来 引入 自己 
的 调用 ， 这 些 调用 由 客户 痢 触 及 ， 并 在 服务 端 絮 执行 。 


例如 ， 用 户 自 定义 过 滤器 (参考 4.1.6 节 ) ， 用 户 需 要 编写 一 些 特定 
的 Java 类 来 实现 特定 接口 。 用 户 需 要 将 其 编译 成 JAR 文 件 ， 并 使 服务 器 
端 可 以 加 载 。region 服 务 器 进程 会 实例 化 这 些 类 ， 并 在 正确 的 系统 环境 
中 运行 。 与 过 滤器 不 同 的 是 ， 协 处 理 右 可 以 动态 加 载 。 这 一 点 可 以 使 用 
户 在 HBase 集 群 运行 中 扩展 其 功能 。 


有 很 多 可 以 使 用 协 处 理 需 的 场景 ， 例 如 ， 使 用 钩子 关联 行 修改 操作 
来 维护 一 个 辅助 索引 ， 或 维护 一 些 数据 间 的 引用 完整 性 。 过 滤器 也 可 以 
被 增强 为 有 状态 的 ， 因 此 它们 可 以 做 一 些 路 行 级 的 决策 。 如 RDBMS 中 
常见 的 sum( )、avg( ) 等 聚合 函数， 以 及 SQL 也 可 以 在 服务 器 问 完 成 ， 
服务 嚣 端 只 震 在 本 地 扫描 并 统计 数据 ， 然 后 把 数值 结果 返回 给 客户 端 。 

















一 人 另 一 个 适合 使 用 协 处 理 器 的 场景 是 权限 控制 。 
HBase 0.92 的 授权 认证 和 审查 功能 就 是 基于 协 处 理 器 完成 的 。 
它们 在 系统 启动 时 被 加 载 ， 并 提供 与 触发 器 类 似 的 钩子 函数 
来 检查 一 个 用 户 是 否 通过 了 认证 ， 以 及 是 否 有 权限 访问 表 中 
的 某 些 数据 。 








协 处 理 融 框 站 DERES 些 类 ， 用 户 可 以 通过 继承 这 些 类 来 扩展 
自己 的 功能 ZERE 要 分 为 两 大 类 ， 即 observer 和 endpoint。 以 下 是 各 
ADI 的 简 fa] Be Jp? 


observer 


这 一 类 协 处 理 器 与 触发 器 Ctrigger) 类 似 : ERZ CTE RARE EY 
T Až, hook) 在 一 些 特 定 事件 发 生 时 被 执行 。 这 些 事件 包括 一 些 用 
户 产 生 的 事件 ， 也 包括 服务 顺 端 内 部 上 自动 产生 的 事件 。 


协 处 理 喜 框架 提供 的 接口 如 下 所 示 。 


RegionObserver : 用 户 可 以 用 这 种 的 处 理 器 处 理 数 据 修改 事件 ， 
它们 与 表 的 region 联 系 紧密 。 

MasterObserver : 可 以 被 用 作 管理 或 DDL 类 型 的 操作 ， 这 些 是 集 
群 级 事件 。 

WALObserver : 提供 控制 WAL 的 钧 子 函 数 。 


observer 提 供 了 一 些 设 计 好 的 回调 函数 ， 每 个 操作 在 集群 服务 右 靖 
都 可 以 被 调用 。 





endpoint 
除了 事件 处 理 之 外 还 需要 将 用 户 自 定义 操作 添加 到 服务 器 端 。 用 户 


Sener eee 例如 ， 做 一 些 服 务 器 端 计算 的 
YF 


endpoint 通 过 添加 一 些 远 程 过 程 调 用 来 动态 扩展 RPC 协 议 。 可 以 把 
它们 理解 为 与 RDBMS 中 类 似 的 存储 过 程 。endpoint 可 以 与 observer 的 实 
现 组 合 起 来 直接 作用 于 服务 器 端的 状态 。 





这 些 接口 都 基于 Coprocessor 框架 的 接口 ， 以 获取 一 些 共 有 的 特 
性 ， 同 时 也 可 以 实现 自己 特有 的 功能 。 


最 后 ， 协 处 理 器 可 以 被 链接 起 来 使 用 ， 这 个 特点 与 Java Servlet API 
的 过 滤器 请 求 相似 。 下 面 介绍 一 些 协 处 理 占 框架 中 可 用 的 类 型 。 


4.3.2 Coprocessor 类 
所 有 协 处 理 器 的 类 都 必须 实现 这 个 接口 。 它 定义 了 协 处 理 器 的 基本 


约定 ， 并 使 得 框架 本 身 的 定理 变 得 容易 。 这 里 提供 了 两 个 被 应 用 于 框架 
的 枚 举 类 一 一 Priority 和 State 。 表 4-8 解 释 了 这 些 值 的 含义 。 











44-8 Coprocessor .Priority 枚 举 类 定义 的 优先 级 








高 优先 级 ， 定 义 最 先 被 执行 的 协 处 理 器 

















他 的 协 处 理 器 ， 按 顺序 执行 








协 处 理 吉 的 优先 级 决定 了 执行 的 顺序 : 系统 Csystem) WAIE AS 
在 用 户 Cuser) 级 协 处 理 器 之 前 执行 。 


as 4 
| Be Re, 
| 在 同一 个 优先 级 中 还 有 一 个 序号 (sequence 


number) 的 概念 ， 用 来 维护 协 处 理 器 的 加 载 顺序 。 序 号 从 0 开 
始 依次 增加 。 





这 个 数字 作用 并 不 大 ， 但 用 户 可 以 依靠 它们 来 为 同一 优 
先 级 的 协 处 理 吕 排序， 在 同一 优先 级 下 ， 它 们 按照 其 序号 递 
增 的 顺序 执行 ， 即 定义 了 执行 顺序 。 


在 协 处 理 器 的 生命 周期 中 ， 它 们 由 框架 管理 。Coprocessor 接口 
提供 了 如 下 两 个 方法 : 


void start(CoprocessorEnvironment env) throws IOException; 
void stop(CoprocessorEnvironment env) throws IOException; 





这 两 个 方法 在 协 处 理 器 开始 和 结束 时 被 调 
用 。CoprocessorEnvironment 用 来 在 协 处 理 器 的 生命 周期 中 保持 其 
状态 。 协 处 理 器 实例 一 直 被 保存 在 提供 的 环境 中 。 


表 4-9 列 举 了 它 提 供 的 方法 。 





表 4-9 CoprocessorEnvironment 类 提供 的 方法 


以 字符 串 的 格式 返回 HBase 版 本 


















































Coprocessor.Priority ` H, g aX ey ye A op 
getPriority() 返回 协 处 理 器 的 优先 级 


协 处 理 器 的 序号 ， 当 协 处 理 器 加 载 时 被 设置 ， 这 反映 






































int getLoadSequence() 


了 它 的 执行 顺序 


HTableInterface 返回 与 传 入 的 表 名 参数 对 应 的 HTable 实例 ， 这 允许 协 




















getTable(byte[] tableName) ”| 处 理 器 访问 实际 的 表 数 据 





协 处 理 絮 应 当 只 与 提供 给 它们 的 环境 进行 交互 。 这 样 的 好 处 是 可 以 
保证 没有 会 被 恶意 代码 用 来 破坏 数据 的 后 门 。 


| | de 
| 协 处 理 器 应 当 使 用 getTable( ) 方法 访问 表 数 据 。 
注意 这 个 方法 实际 上 在 默认 的 HTable 类 上 添加 了 特定 的 安全 


音 施 。 例 如 ， 协 处 理 器 不 可 以 对 一 行 数据 加 锁 。 











目前 为 止 ， 还 没有 阻止 用 户 在 协 处 理 器 代码 中 创建 
HTable 实例 的 办 法 ， 这 些 漏洞 可 能 会 在 今后 的 版 本 中 被 检查 
出 来 ， 并 被 阻止 。 


在 协 8 周期 中 ，Coprocessor 接口 的 start() 和 
stop() 方法 会 被 框架 隐 式 调用 ， 处 理 过 程 中 的 每 一 步 都 有 一 个 状态 。 
表 4-10 列 举 了 协 处 理 器 提供 的 生命 周期 状态 。 


表 4-10 Coprocessor.State 枚 举 类 定义 的 状态 














UNINSTALLED | 协 处 理 器 最 初 的 状态 ， 没 有 环境 ， 也 没有 被 初始 化 














perce | enter 它 的 环境 参数 


STARTING 协 处 理 器 将 要 开始 工作 ， 也 就 是 说 start() 方法 将 要 被 调用 















































—Hstart() 方法 被 调用 ， 当 前 状态 设置 为 active 


STOPPING stop() 方法 被 调用 之 前 的 状态 














—Elstop() 方法 将 控制 权 交 给 框架 ， 协 处 理 器 会 被 设置 为 状态 stopped 








最 后 的 迷 团 是 CoprocessorHost 类 ， 它 维护 所 有 协 处 理 器 实例 和 
它们 专用 的 环境 。 它 有 一 些 子 类 ， 这 些 子 类 应 用 在 不 同 的 使 用 环境 ， 例 
如 ，master 和 region 服 务 器 等 环境 。 


Coprocessor 、CoprocessorEnvironment 和 CoprocessorHost 
这 3 个 类 形成 了 协 处 理 器 类 的 基础 ， 基 于 这 3 个 类 能 够 实现 更 高 级 的 功 
能 。 它 们 文 持 协 处 理 器 的 生命 周期 ， 管 理 协 处 理 喜 的 状态 ， 同 时 提供 了 
执行 时 的 环境 参数 ， 以 保证 协 处 理 器 正确 执行 。 此 外 ， 这 些 类 也 提供 了 
一 个 抽象 层 方便 用 户 更 简单 的 构建 自己 的 实现 。 


图 4-3 展 示 了 客户 端的 调用 如 何 与 一 系列 的 协 处 理 需 进行 区 互 。 需 
要 注意 的 是 ， 执 行 顺序 在 输入 输出 阶段 都 是 相同 的 ， 首先 执行 系统 级 协 
处 理 器 ， 然 后 是 用 户 级 协 处 理 器 ， 并 按 它们 加 载 时 的 顺序 执行 。 








CRUD + Scan Operations Ñi CRUD + Scan Operations 
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图 4-3” 协 处 理 器 在 它们 每 个 region 环 境 中 按 顺 序 执行 
4.3.3” 协 处 理 器 加 载 


加 载 协 处 理 器 的 方式 有 许多 种 。 在 用 户 了 解 实际 的 协 处 理 器 类 型 和 
如 何 实现 目 定 义 类 型 之 前 ， 首 移 需 要 了 解 如 何 部 普 它 们 ， 这 样 才 能 答 试 
我 们 提供 的 例子 。 


用 户 可 以 将 协 处 理 器 配置 为 使 用 静态 方式 加 载 ， 也 可 以 在 集群 运行 
时 动态 加 载 协 处 理 器 。 使 用 配置 文件 和 表 模 式 加 载 是 静态 加 载 方法 ， 接 
TE 不 笠 的 是 ， 现 在 还 没有 开放 用 户 动 态 加 载 协 处 理 
器 的 API。 


1. 从 配置 中 加 载 
用 户 可 以 在 HBase 启 动 时 通过 配置 文件 控制 在 全 局 中 加 载 哪些 协 处 


理 右 。 用 户 通过 添加 以 下 配置 中 的 一 条 或 几 条 到 hbpase-site.xml 文件 中 来 
添加 协 处 理 占 。 











property> 
< name>hbase.coprocessor.region.classes< /name> 
< value>coprocessor.RegionObserverExample, coprocessor .AnotherCoprocesso 
r < /value> 
< /property> 
< property> 
< name>hbase.coprocessor.master.classes< /name> 
< value>coprocessor.MasterObserverExample< /value> 
/property> 
property> 
< name>hbase.coprocessor.wal.classes< /name> 
< value>coprocessor.WALObserverExample, bar.foo.MyWALObserver< /value> 
/property> 








”将 以 上 例子 中 的 类 名 蔡 换 为 用 户 自己 的 类 名 。 








配置 文件 中 配置 项 的 顺序 非常 重要 ， 这 个 顺序 决定 了 执行 顺序 。 所 
有 协 处 理 需 都 是 以 系统 级 优先 级 进行 加 载 的 。 用 户 应 当 将 全 局 类 配置 
到 这 里 ， 这 样 它们 会 被 优先 执行 ， 还 可 以 执行 权限 操作 。 安 全 相关 的 协 
处 理 需 都 是 这 样 加 载 的 。 


bese 人 
配置 文件 首先 在 HBase 启 动 时 被 检查 。 虽 然 用 户 可 
以 在 其 他 地 方 增加 系统 级 优先 级 的 协 处 理 器 ， 但 是 在 配置 文 


件 中 配置 的 协 处 理 喜 是 被 最 先 执 行 的 。 











这 3 项 配置 中 只 有 一 个 会 被 与 之 相对 应 的 


CoprocessorHost 的 实现 加 载 。 例 
如 ，hbase.coprocessor.master.classes 中 定义 的 协 处 
理 露 会 被 MasterCoprocessorHost 类 加 载 。 





表 4-11 展 示 了 每 个 配置 项 的 作用 。 


表 4-11 配置 项 和 它们 的 作用 


° 5 í 



































当 一 张 表 的 region 被 打开 
时 ，hbase.coprocessor.region.classes 定义 的 协 处 理 器 会 被 加 
载 。 注 意 用 户 不 能 指定 具体 是 哪 张 表 或 哪个 region 加 载 这 个 类 : 默认 的 
协 处 理 器 会 被 每 张 表 和 每 个 region 加 载 。 用 户 在 设计 自己 的 协 处 理 器 时 
要 注意 这 一 点 。 


2. 从 表 摘 述 符 中 加 载 


另 一 个 决定 哪些 协 处 理 器 被 加 载 的 选项 是 表 描 述 符 。 因 为 这 是 针对 
特定 表 的 ， 所 以 加 载 的 协 处 理 器 只 针对 这 个 表 的 region， 同 时 也 只 被 这 
些 region 的 region 服 务 器 使 用 。 换 句 话说 ， 用 户 只 能 在 与 region 相 关 的 协 
处 理 器 上 使 用 这 种 方法 ， 而 不 能 在 master 或 WAL 相 关 的 协 处 理 器 上 使 
用 。 


由 于 它们 是 使 用 表 的 上 下 文 加 载 的 ， 所 以 与 配置 文件 中 加 载 的 协 处 
理 费 影响 所 有 表 相 比 ， 这 种 方法 加 载 的 协 处 理 占 更 具有 和 针对 性 。 用 户 需 





要 在 表 描 述 符 中 利用 HTableDescriptor.setValue() 方法 定义 它们 。 
键 必须 以 COPROCESSOR 开头 ， 值 必须 符合 以 下 格式 : 


< path-to-jar>|< classname>|< priority> 





以 下 是 一 个 定义 了 两 个 协 处 理 器 的 例子 ， 一 个 使 用 系统 优先 级 ， 驳 
一 个 使 用 用 户 优先 级 : 


"COPROCESSOR$1' => \ 
"hdfs://localhost:8020/users/leon/test.jar|coprocessor.Test|SYSTEM' 
"COPROCESSOR$2' => \ 


'/Users/laura/test2.jar|coprocessor.AnotherTest |USER' 





path-to-jar 可 以 是 一 个 完整 的 HDFS 地 址 或 其 他 Hadoop 
Filesystem 类 支持 的 地 址 。 第 二 个 协 处 理 器 束 使 用 了 本 地 路 径 。 


classname 定义 了 具体 的 实现 类 。 由 于 JAR 可 能 包含 许多 协 处 理 占 
类 ， 但 只 能 给 一 张 表 设 定 一 个 协 处 理 器 。 用 户 应 该 使 用 标准 的 Java 包 命 
名 规则 来 命名 指定 类 。 


priority 只 能 是 SYSTEM 或 USER 。 





“E> 
性 ”不 要 在 协 处 理 器 定义 中 添加 空格 。 解 释 十 分 严格 ， 
添加 头 尾 或 间隔 字符 会 使 整个 配置 条 目 无 效 。 








使 用 $<number> 后 级 可 以 改变 定义 中 的 顺序 ， 即 协 处 理 嚣 的 加 载 顺 
序 。 虽 然 只 有 COPROCESSOR 的 前 级 会 被 检查 ， 但 是 还 是 推荐 大 家 使 用 
数字 后 级 定义 顺序 。 例 4.19 展 示 了 如 何 使 用 管理 API 实 现 这 些 功 能 。 








例 4.19 检查 特定 get 请 求 的 region observer 


public class LoadWithTableDescriptorExample { 


public static void main(String[] args)throws IOException { 
Configuration conf = HBaseConfiguration.create(); 


FileSystem fs = FileSystem.get(conf) ; 
Path path = new Path(fs.getUri() + Path.SEPARATOR + "test.jar");@ 


HTableDescriptor htd = new HTableDescriptor("testtable");@ 
htd.addFamily(new HColumnDescriptor("colfam1")) ; 
htd.setValue("COPROCESSOR$1", path. toString() + 


+ RegionObserverExample.class.getCanonicalName() + © 
+ Coprocessor.Priority.USER) ; 


HBaseAdmin admin = new HBaseAdmin(conf) ;@ 
admin. createTable(htd) ; 


System.out.println(admin. getTableDescriptor(Bytes.toBytes("testtable" 





@ 得 到 包含 协 处 理 器 实现 的 JAR 文 件 的 地 址 。 

Oe CATIA 

@@ 将 协 处 理 器 定义 添加 到 表 描 述 符 中 。 

@ 创 建 集群 的 管理 API 并 添加 这 个 表 。 

回 检 查 定义 的 协 处 理 器 是 否 被 正确 添加 。 

当 运 行 一 个 本 地 单机 的 HBase 集 群 时 ， 最 后 的 检查 会 有 以 下 输出 : 





{NAME => 'testtable',COPROCESSOR$1 => \ 
'file:/test.jar|coprocessor.RegionObserverExample|USER',FAMILIES => \ 
[{NAME => 'colfam1',BLOOMFILTER => 'NONE',REPLICATION_SCOPE => '@',\ 
COMPRESSION => 'NONE',VERSIONS => '3',TTL => '2147483647' ,BLOCKSIZE \ 
=> '65536',IN MEMORY => 'false',BLOCKCACHE => ‘true'}]} 


协 处 理 器 的 定义 被 成 功 地 添加 到 了 表 定 义 中 。 一 旦 表 被 启用 ， 且 
region 被 打开 ， 框 架 会 首先 加 载 配置 文件 中 定义 的 协 处 理 器 ， 然 后 再 加 
载 表 描述 符 中 的 协 处 理 器 。 

4.3.4 RegionObserver 类 

在 region 级 别 中 介绍 的 Coprocessor 第 一 个 子 类 
是 Region0bserver 类 。 从 名 字 中 可 以 看 出 它 属 于 observer 协 处 理 器 : 
当 一 个 特定 的 region 级 别 的 操作 发 生 时 ， 它 们 的 钩子 函数 会 被 触发 。 


这 些 操作 可 以 被 分 为 两 类 : region 生 命 周期 变化 和 客户 端 API 调 用 。 
我 们 会 在 后 面 介绍 这 两 类 协 处 理 露 。 


1. 处 理 region 生 命 周 期 事件 


8.6 市 将 介绍 region 的 生命 周期 ， 图 4-4 简 单 展 示 了 原理 。 


pending open pending close 


Coprocessor 





























图 4-4 在 region 生 命 周 期 状态 变化 时 起 作用 的 协 处 理 器 











这 些 observer 可 以 与 pending open、open 和 pending close 状 态 通过 钩 
子 链接 。 每 一 个 钧 子 都 被 框 染 隐 式 地 调用 。 


WA 
| wW 
a 好、 + 
| wW a 
Lotit 


”为 了 简洁 ， 在 介绍 observer 调 用 时 ， 所 有 参数 和 异常 





都 被 忽略 了 。 读 者 可 以 从 线 上 文档 中 得 到 完整 的 定义 中。 需 
要 注意 的 是 ， 所 有 的 调用 都 有 一 个 特定 的 第 一 参数 : 


ObserverContext< RegionCoprocessorEnvironment> < 





特殊 的 CoprocessorEnvironment 包装 让 用 户 可 以 控制 
在 钧 子 执行 之 后 会 发 生 什 么 。 参 
阅 “RegionCoprocessorEnvironment 
类 ”和 “ObserverContext 类 ”两 节 中 的 详细 介绍 。 


状态 ，pending open。 region 将 要 被 打开 时 会 处 于 这 个 状态 。 监 听 
的 协 处 理 器 可 以 搭载 这 个 过 程 或 阻止 这 个 过 程 。 以 下 有 几 个 调用 可 以 完 
成 这 些 功能 : 


void preOpen(...)/ void postOpen(...) 








这 些 方法 会 在 region 被 打开 前 或 刚刚 打开 后 被 调用 。 用 户 可 以 在 自 
己 的 协 处 理 器 实现 中 使 用 这 两 个 方法 ， 例 如 ， 使 用 pre0pen( ) 方法 告知 
框架 这 次 打开 操作 应 当 被 放弃 ， 或 义 住 postOpen( ) 方法 来 触发 一 次 组 
存 预 热 或 其 他 一 些 操作 。 


region 经 过 pending opean， 且 在 打开 状态 之 前 ，region 服 务 器 可 能 需 
要 从 WAL 中 应 用 一 些 记录 到 region 中 ， 这 时 会 触发 以 下 方法 : 





void preWALRestore(...)/ void postWALRestore(...) 


pO 


这 个 方法 让 用 户 可 以 细 粒 度 地 控制 在 WAL 重 做 时 哪些 修改 需要 被 
实施 。 用 户 可 以 访问 修改 记录 ， 因 此 用 户 束 可 以 监督 哪些 记录 被 实施 
To 





状态 : open. 当 一 个 region 被 部 署 到 一 个 region 服 务 器 中 ， 并 可 以 
正常 工作 时 ， 这 个 region 会 被 认为 处 于 open 状 态 。 此 前 本 书 中 提 到 的 那 
些 方法 就 可 以 被 应 用 在 这 个 region 上 了 ， 例 如 ，region 的 内 存 存储 可 以 被 
当 它 变 得 非常 大 时 ，region 也 可 以 被 拆 分 。 可 用 的 钩子 
函数 如 下 : 





void preFlush(...) / void postFlush(...) 
void preCompact(...) / void postCompact(...) 
void preSplit(...) / void postSplit(...) 





现在 我 们 只 能 简单 直观 地 介绍 一 下 : pre 方 法 在 事件 执行 前 被 调 
用 ，post 方 法 在 事件 执行 后 被 调用 。 人 例如， 用户 使 用 preSsp1Lit() 钩子 
函数 可 以 有 效 地 禁用 region 拆 分 ， 然 后 手动 执行 这 些 操作 。 


状态 : pending close. 最 后 一 组 region 监 听 器 的 钩子 函 数 可 以 监听 
pending close 状 态 。 这 个 状态 在 region 状 态 从 open 到 closed 转 变 时 发 生 。 
在 region 被 关闭 之 前 和 之 后 ， 以 下 钩子 函数 将 被 执行 : 





void preClose(..., boolean abortRequested)/ 
void postClose(..., boolean abortRequested) 








abortRequested 参数 包含 了 region 被 关闭 的 原因 。 通 常情 况 下 ， 
region 会 在 正常 操作 中 被 关闭 ， 例 如 ，region 由 于 负载 均衡 被 移动 到 其 他 





region 服 务 器 时 被 关闭 。 也 有 可 能 是 由 于 region 服 务 器 被 撤销 ， 且 需 避 人 免 
一 些 副 作用 。 当 这 些 情况 发 生 时 ， 所 肠管 理 的 region 都 会 被 撤销 ， 同 
时 用 户 从 这 个 参数 中 可 以 看 到 是 否 符合 这 种 情况 。 





2. 处 理 客 户 端 API 事 件 


与 生命 周期 事件 相 比 ， 所 有 的 客户 端 API 调 用 都 显 式 地 从 客户 端 应 
用 中 传输 到 region 服 务 器 。 用 户 可 以 在 这 些 调用 执行 前 或 刚刚 执行 后 拦 
截 它们 。 以 下 是 可 用 的 方法 。 


void preGet(...)/ void postGet(...) 





在 客户 端 HTable.get() 请 求 执 行 之 前 和 之 后 调用 。 


void prePut(...)/ void postPut(...) 





在 客户 端 HTable.put() 请 求 执行 之 前 和 之 后 调用 。 


void preDelete(...)/ void postDelete(...) 





在 客户 端 HTable.delete() 请 求 执行 之 前 和 之 后 调用 。 


boolean preCheckAndPut(...)/ boolean postCheckAndPut(...) 





在 客户 端 调用 HTable.checkAndPut() 之 前 和 之 后 调用 。 


boolean preCheckAndDelete(...)/ boolean postCheckAndDelete(...) 





在 客户 端 调用 HTable.checkAndDelete() 之 前 和 之 后 调用 。 


void preGetClosestRowBefore(...)/ void postGetClosestRowBefore(...) 





在 客户 端 调用 HTable.getClosestRowBefore() 之 前 和 之 后 调 


boolean preExists(...)/ boolean postExists(...) 





在 客户 端 调用 HTable.exits() 之 前 和 之 后 调用 。 


long preIncrementColumnValue(...)/ long postIncrementColumnValue(...) 





在 客户 端 调用 HTable.incrementColumnValue() 之 前 和 之 后 调 


void preIncrement(...)/ void postIncrement(...) 





在 客户 端 调用 HTable.increment() 之 前 和 之 后 调用 。 


InternalScanner preScannerOpen(...)/ InternalScanner postScannerOpen(... 





在 客户 端 调用 HTable.getscanner() 之 前 和 之 后 调用 。 


boolean preScannerNext(...)/ boolean postScannerNext(...) 





在 客户 端 调用 Resultscanner.next() 之 前 和 之 后 调用 。 


void preScannerClose(...)/ void postScannerClose(...) 





在 客户 端 调用 ResultScanner.close() 之 前 和 之 后 调用 。 
3. RegionCoprocessorEnvironment 类 


实现 Region0bserver 类 的 协 处 理 器 环境 的 实例 是 基于 
RegionCoprocessorEnvironment 类 
的 ，RegionCoprocessorEnvironment 实现 了 
CoprocessorEnvironment 接口 。 后 者 在 4.3 节 中 介绍 过 


除了 已 提供 的 方法 ， 一 些 更 特别 的 、 面 同 region 的 子 类 还 添加 了 一 
些 方法 ， 有 具体 摘 述 见 表 4-12。 








表 4-12 RegionCoprocessorEnvironment 类 提供 的 方法 及 子 类 方法 





RegionServerServices 返回 共 k 享 的 Regionserverservices 实 
getRegionServerServices() 








getRegion() 方法 可 以 用 于 得 到 目前 正在 管理 的 HRegion 实例 ， 
同时 可 以 执行 这 个 类 提供 的 方法 。 此 外 用 户 代 码 可 以 访问 共 cE 
RegionServerServices 实例 ， 这 会 在 表 4-13 中 进行 说 明 。 





表 4-13 RegionServerServices 类 提供 的 方法 




















boolean isStopping() 当 region 服 务 器 正在 停止 服务 时 ， 返 回 true 


gwana 


CompactionRequestor 提供 访问 共享 的 CompactionRequestor 实例 的 功能 ， 可 


getCompactionRequester() 以 在 协 处 理 器 内 部 发 起 合并 




















FlushRequester 提供 访问 共享 的 FlushRequester 实例 功能 ， 可 以 用 于 
getFlushRequester() 发 起 memstore 刷 写 





Regions A ti 提供 访问 共享 RegionserverAccounting 实例 的 功能 。 用 
e 户 可 以 利用 它 得 到 当前 服务 进程 资源 的 占用 状态 ， 例 


getRegionServerAccounting() 如 当前 memstore 的 大 小 








postOpenDeployTasks (Hregion Ae AA re 
r, CatalogTracker ct,final 这 是 一 个 内 部 调用 ， 在 region 服 务 器 内 部 使 用 


boolean daughter) 

















HBaseRpcMetrics 是 供 访 问 共 e pie 实例 的 功能 ， 包 含 当前 
getRpcMetrics() 民 务 端 RPC 统 计 信 息 








这 里 不 详细 讨论 所 有 功能 ， 不 过 用 户 可 以 参考 Java API 文 档 。 © 
4. ObserverContext 类 


RegionObserver KERKIMA PAR AA S ARKE R 
作为 共同 的 参数 : Observercontext 2 a 了 访问 当前 系统 
环境 的 入 口 ， 同时 也 添加 了 一 些 关 键 功 能 用 以 通知 协 处 理 器 框架 在 回调 

函数 完成 时 需要 做 什么 。 


wa, 


Rog 
ae + 
| | RE, 


所 有 的 协 处 理 器 在 执行 时 共用 一 个 上 下 文 实例 ， 并 











会 随 独 环境 一 起 变化 。 


表 4-14 展 示 了 上 下 文 类 提供 的 方法 。 


表 4-14 ObserverContext 类 提供 的 方法 


返回 当前 协 处 理 器 环境 的 引 肯 


人 当 用 户 代码 调用 此 方法 时 ， 框 架 将 使 用 用 户 提供 的 值 ， 而 
A 不 使 用 框架 通常 使 用 的 值 


通知 框架 后 续 的 处 理 可 以 被 跳 过 ， 剩 下 没有 被 执行 的 协 处 
void complete() 这 意味 着 当前 协 处 理 器 的 啊 应 是 最 后 的 
— 7S pAb EH aS 








































































































boolean shouldBypass() | 框架 内 部 用 来 检查 标志 位 


boolean JAA = fy 
shouldComplete() 来 检查 标志 位 








使 用 特定 的 环境 准备 上 下 文 。 这 个 方法 只 供 内 部 使 用 。 它 
被 静态 方法 createAndPrepare() 使 用 


void prepare(E env) 














static <T extends 

CoprocessorEnvironment> | 、 R . OA "3 
ObserverContext<T> 初始 化 上 下 文 的 静态 方法 。 当 提供 的 context 参数 是 null 时 ， 
createAndPrepare(T env, | 它 会 创建 一 个 新 实例 

ObserverContext<T> 

context) 











两 个 重要 的 上 下 文 方法 是 bypass() 和 complete() 。 它 们 为 用 户 
的 协 处 理 器 实现 提供 了 选择 ， 以 控制 框架 后 续 行 为 。complete() 的 调 
用 会 影响 后 面 执行 的 协 处 理 器 ， 同 时 bypass() 方法 可 以 停止 当前 服务 


的 处 理 过 程 。 通 过 之 前 的 例子 ， 用 户 可 以 使 用 它 集 止 region 的 自动 
I: 


@Override 
public void preSplit(ObserverContext< RegionCoprocessorEnvironment> e){ 
e.bypass(); 








与 基于 接口 实现 自己 的 RegionObserver 相 比 ， 用 户 可 以 使 用 基 类 
修改 自己 需要 的 部 分 。 


5. BaseRegionObserver 类 


这 个 类 可 以 作为 所 有 用 户 实现 监听 类 型 协 处 理 器 的 基 类 。 它 实现 了 
所 有 RegionObserver 接口 的 空 方法 ， 所 以 在 默认 情况 下 继承 这 个 类 的 
协 处 理 器 没有 任何 功能 。 用 户 需 要 重 载 他 们 感 兴趣 的 方法 来 实现 自己 的 





例 4.20 实 现 了 一 个 observer 处 理 特殊 行 键 的 请 求 。 
例 4.20 ”检查 特殊 get 请 求 的 region observer 


public class RegionObserverExample extends BaseRegionObserver { 
public static final byte[] FIXED_ROW = Bytes.toBytes("@@@GETTIME@@@" ) ; 


@Override 
public void preGet(final ObserverContext< RegionCoprocessorEnvironment 
e, 
final Get get,final List< KeyValue> results)throws IOException { 
if (Bytes.equals(get.getRow(),FIXED_ROW)){ @ 


KeyValue kv = new KeyValue(get.getRow(),FIXED_ROW,FIXED_ROW, 
Bytes.toBytes(System.currentTimeMillis())); 
results.add(kv) ;@ 








种 检查 请 求 的 行 键 是 否 匹 配 。 
四 创建 一 个 特殊 的 KeyValue 实例 ， 只 包含 服务 器 的 当前 时 间 。 


Wa 





a 
we 1 
“ 将 下 面 的 配置 项 添加 到 hbase-site.xml 中 可 以 启动 协 


SbF ars 


< property> 
< name>hbase.coprocessor.region.classes< /name> 


< value>coprocessor.RegionObserverExample< /value> 


< /property> 





由 于 已 经 把 编译 过 的 包含 这 个 类 的 JAR 添 加 到 了 hbase- 
env.sh 的 HBASE_CLASSPATH 中 ，region 服 务 器 在 JRE 中 可 以 加 


载 这 个 类 。 请 用 户 参 考 4.1.6 节 。 





部 署 完成 之 后 需要 重启 HBase 来 使 配置 生效 。 


行 键 @@@GETTIME@@@ 被 observer 的 preGet() 捕获 ， 然 后 添加 当前 
服务 器 端 时 间 。 部 署 完 成 之 后 ， 使 用 HBase Shell 可 以 看 到 如 下 输出 : 





hbase(main):001:0> get “testtable' '@@@GETTIME@@@' 


COLUMN CELL 

@@@GETTIME@@@:@@@GETTIME@@@ timestamp=9223372036854775807, \ 
value=\x@0\x00\x01/s@3\xD8 

1 row(s)in 0.0410 seconds 


hbase(main):002:0> Time.at(Bytes.toLong(\ 


"\x@0\x@0\x01/s@3\xD8".to_java_bytes)/ 1000) 


=> Wed Apr 20 16:11:18 +0200 2011 








这 这 些 请 求 部 针对 一 个 已 经 存在 的 表 ， 因为 get 请 求 一 张 不 存在 的 表 
时 会 产生 错误 。 由 于 示例 没有 设置 bypass 标志 位 ， 所 以 会 发 生 下 面 的 情 
us 





hbase(main) :003:@> create 'testtable2', 'colfam1' 


© row(s)in 1.3070 seconds 


hbase(main):004:@> put 'testtable2', '@@@GETTIME@@@' ,\ 


"colLfam1:qual1' ，Hel1lo there!' 


© row(s)in 0.1360 seconds 


hbase(main):005:@> get 'testtable2', '@@@GETTIME@@@' 


COLUMN CELL 
@@@GETTIME@@@:@@@GETTIME@@@ timestamp=9223372036854775807, \ 


value=\x00\x@0\x01/SI\xBC\xEC 
timestamp=1303309353184,value=Hello t 


colfam1: quali 
here! 


2 row(s)in 0.0450 seconds 





新 表 被 创建 之 后 ， 问 表 中 添加 一 行 数据 ， 这 一 行 数据 随后 也 被 检索 
出 来 了 。 用 户 可 以 观察 到 用 户 添加 的 列 与 表 中 实际 的 数据 混在 了 结果 
中 。 为 了 避免 这 种 情况 ， 例 4.21 添 加 了 必要 的 e.bypass() 调用 。 


例 4.21 ”regionobserver 检 查 特 殊 的 get 请 求 并 跳 过 之 后 的 处 理 过 程 


if(Bytes.equals(get.getRow(),FIXED_ROW) ){ 


KeyValue kv = new KeyValue(get.getRow(), FIXED _ROW,FIXED_ROW, 
Bytes.toBytes(System.currentTimeMillis())); 
results.add(kv); 


e.bypass();@ 





@ 一 旦 特殊 的 KeyValue 被 添加 ， 之 后 的 操作 都 会 被 跳 过 





a 
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C 用户 需要 把 以 下 配置 添加 到 hbase-site.xml 中 ; 


< property> 
< name>hbase.coprocessor.region.classes< /name> 
< value>coprocessor.RegionObserverWithBypassExample< /value> 


/property> 





与 之 前 的 示例 一 样 ， 请 重启 HBase 使 改动 生效 。 


与 之 前 设想 的 一 样 ， 使 用 命令 行 得 看 结果 ， 如 下 所 不: 





hbase(main):069:0> get 'testtable2', '@@@GETTIME@@@' 


COLUMN CELL 


@@@GETTIME@@@:@@@GETTIME@@@ timestamp=9223372036854775807, \ 
value=\x@0\x00\x01/s |\x1D4 


1 row(s)in 0.0470 seconds 





由 于 默认 的 get 操作 被 跳 过 ， 只 有 人 工 添 加 的 一 列 被 返回 ， 并 且 是 
返回 的 唯一 一 列 数 据 。 同 时 注意 返回 列 的 时 间 戳 
是 9223372636854775867 ， 这 个 值 是 Long .MAX VALUE 预计 得 到 的 





值 。 因 为 示例 代码 创建 KeyValue 实例 时 并 没有 指定 时 间 礁 ， 所 以 被 默 
认 设 为 HConstants .LATEST _TIMESTAMP ， 即 Long.MAX _VALUE 。 用 
户 可 以 修改 示例 代码 并 使 用 Shell 查 看 修改 后 的 返回 结果 。 


4.3.5 MasterObserver 类 


讨论 的 Coprocessor 的 第 二 个 子 类 是 为 了 处 理 master 服 务必 的 所 有 
回调 函数 。 这 些 操作 和 API 调 用 会 在 第 5 章 介 绍 ， 与 关系 型 数据 库 中 DDL 
类 似 ， 它 们 可 以 被 归 类 到 数据 处 理 操作 中 。 基 于 上 述 原 因 
MasterObserver 类 提供 如 下 钧 子 函 数 。 





void preCreateTable(...)/ void postCreateTable(...) 





在 表 创 建 前 后 被 调用 。 


void preDeleteTable(...)/ void postDeleteTable(...) 





在 表 删 除 前 后 被 调用 。 


void preModifyTable(...)/ void postModifyTable(...) 





在 表 修 改 前 后 被 调用 。 


void preAddColumn(...)/ void postAddColumn(...) 





在 表 中 添加 列 前 后 被 调 用 。 


void preModifyColumn(...)/ void postModifyColumn(...) 


| 


在 表 中 列 被 修改 前 后 被 调用 。 


void preDeleteColumn(...)/ void postDeleteColumn(...) 





在 表 中 列 被 删除 前 后 被 调用 。 


void preEnableTable(...)/ void postEnableTable(...) 





在 表 局 用 前 后 说 调用 。 


void preDisableTable(...)/ void postDisableTable(... 





在 表 芭 用 前 后 被 调用 。 


void preMove(...)/ void postMove(...) 





在 region 被 移动 前 后 被 调用 。 


void preAssign(...)/ void postAssign(...) 





在 region 分 配 前 后 被 调用 。 


void preUnassign(...)/ void postUnassign(...) 





在 region 未 分 配 前 后 被 调用 。 


void preBalance(...)/ void postBalance(...) 





在 region 负 载 均 衡 操 作 前 后 被 调用 。 


boolean preBalanceSwitch(...)/ void postBalanceSwitch(...) 





在 修改 上 自动 负 载 均 衡 标 总 位 前 后 被 调用 。 


void preShutdown(...) 





在 集群 关闭 工作 开始 前 被 调用 。 没 有 post 钩 子 函 数 ， 因 为 集群 关闭 
之 后 没有 进程 可 以 执行 post 函 数 。 


void preStopMaster(...) 





在 master 进 程 停止 工作 开始 前 被 调用 。 没 有 post 钓 子 函 数 ， 因 为 
master 停 止 工 作 之 后 没有 进程 可 以 执行 post 函 数 。 


1. MasterCoprocessorEnvironment 类 


4jRegionCoprocessorEnvironment 包括 一 个 RegionObserver 


协 处 理 器 类 似 ，MasterCoprocessorEnvironment 封装 了 一 

个 MasterObserver 实例 ， 它 同样 实现 了 CoprocessorEnvironment 
接口 ， 因 此 它 也 能 提供 getTable() 之 类 的 方法 帮助 用 户 在 自己 的 实现 
中 访问 数据 。 


面 同 master 的 子 类 添加 了 表 4-15 中 描述 的 方法 。 


表 4-15 MasterCoprocessorEnvironment 类 提供 的 非 继承 方法 





a a 


用 户 代 码 可 以 访问 共享 的 MasterServices 实例 ， 表 4-16 介 绍 了 它 
的 方法 。 





表 4-16 MasterServices 类 提供 的 方法 


AssignmentManager 使 用 户 可 以 访问 AssignmentManager 实例 ， 它 负责 为 所 有 
getAssignmentManager() 的 region 分 配 操作 ， 例 如 分 配 、 纯 载 和 负载 均衡 等 





MasterFileSystem 提供 一 个 与 master 操 作 相关 的 文件 系统 抽象 层 ， 例 如 ， 
getMasterFileSystem() 创建 表 或 日 志文 件 的 目录 

















ServerManager 返回 servermanager 实例 。 它 可 以 访问 所 有 的 服务 器 进 
getServerManager() 程 ， 无 论 进程 处 于 存活 、 死 亡 或 其 他 状态 














ExecutorService 


getExecutorService() 执行 服务 被 master 用 来 调度 系统 级 事件 

















void 人 LA r FARE Y 就 可 上 
checktabiehodittabtethyteľ] -ji i 己 经 存在 以 及 是 否 已 经 离线 ， 如 果 是 就 可 以 
tableName ) EME 马 














在 这 里 不 会 介绍 所 有 的 细节 ， 更 多 信息 请 参考 Java API 文 档 @ 。 
2. BaseMasterObserver 类 


用 户 可 以 直接 实现 MasterObserver 接口 ， 或 扩 
展 BaseMasterObserver 类 来 实现 自己 的 功能 。BaseMasterObserver 
为 接口 的 每 个 方法 完成 了 一 个 空 的 实现 。 用 户 不 做 任何 改变 直接 使 用 这 
个 类 不 会 有 任何 反馈 。 


用 户 可 以 通过 重 载 合适 的 事件 函数 来 实现 自己 的 功能 。 用 户 可 以 选 
择 对 应 的 pre 或 post 方 法 。 


例 4.22 使 用 了 post 钧 子 函数 在 建 表 完 成 后 添加 了 其 他 操作 。 
例 4.22 创建 新 表 时 创建 一 个 单独 的 目录 











public class MasterObserverExample extends BaseMasterObserver { 


@Override 

public void postCreateTable( 
ObserverContext< MasterCoprocessorEnvironment> env, 
HRegionInfo[ ] regions,boolean sync) 

throws IOException { 
String tableName = regions[@].getTableDesc().getNameAsString();@ 


MasterServices services = env.getEnvironment().getMasterServices(); 


MasterFileSystem masterFileSystem = services.getMasterFileSystem();@ 
FileSystem fileSystem = masterFileSystem. getFileSystem(); 


Path blobPath = new Path(tableName + "-blobs");6 
fileSystem.mkdirs(blobPath) ; 





@@ 从 表 描 述 符 中 得 到 表 名 。 
多 获取 可 用 的 服务 ， 同 时 取得 真实 文件 系统 的 引用 。 


全 创建 新 目录 用 来 存储 客户 端 应 用 的 二 进 制 数据 。 


WA 
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i 用 户 需 要 将 以 下 配置 项 添加 到 hbase-site.xml 文件 
中 ， 然 后 协 处 理 器 将 被 master 进 程 加 载 : 





< property> 
< name>hbase.coprocessor.master.classes< /name> 
< value>coprocessor.MasterObserverExample< /value> 


< /property> 








运行 例子 之 前 ， 请 重 局 HBase 使 修改 生效 。 








一 县 用 户 成 功 启 动 了 协 处 理 器 ， 它 就 开始 监听 事件 并 在 事件 发 生 时 
目 动 触发 用 户 添加 的 代码 。 示 例 代码 使 用 了 已 提供 的 服务 建 并 目录， 一 
ae 的 应 用 可 以 使 用 这 个 目录 在 HBase 外 部 存储 大 的 二 进 制 对 象 〈 称 
为 blob ) 。 


使 用 Shell 触 发 事件 如 下 所 示 : 








hbase(main):001:@> create 'testtable', 'colfam1' 


© row(s)in 0.4300 seconds 


pT 


这 个 操作 创建 了 一 张 表 ， 然 后 调用 了 协 处 理 器 的 
postCreateTable() 方法 。 用 户 可 以 用 Hadoop 的 命令 行 工具 来 检验 结 
R: 


$ bin/hadoop dfs -ls 


Found 1 items 


drwxr-xr-x - larsgeorge supergroup 0 ... /user/larsgeorge/testtable- blo 
bs 





用 户 可 以 使 用 MasterObserver 协 处 理 器 做 许多 事情 。 由 于 用 户 可 
以 通过 MasterServices 实 例 得 到 许多 共享 的 master 资 源 ， 所 以 用 户 需 
要 小 心 操 作 以 避免 造成 严重 破坏 。 


最 后 ， 因 为 Environment 实例 被 ObserverContext 封装 过 ， 用 户 
也 可 以 调用 流程 控制 函数 bypass() 和 complete() 。 用 户 可 以 使 用 它 
们 显 式 地 禁用 一 些 操作 ， 或 跳 过 后 续 要 执行 的 协 处 理 器 。 





4.3.6 endpoint 


在 之 前 Region0bserver 的 示例 中 ， 我 们 使 用 了 一 个 已 知 的 行 键 ， 
并 在 get 请 求 中 添加 了 一 个 计算 好 的 列 。 这 看 起 来 足以 让 我 们 实现 其 他 
一 些 功能 了 ， 例 如 ， 使 用 聚合 函数 来 计算 一 个 特定 列 所 有 值 的 和 。 


不 辛 的 是 ， 这 种 方式 行 不 通 ， 因 为 行 键 决定 了 哪 一 个 region 处 理 这 
个 请 求 ， 所 以 计算 请 求 只 会 送 到 这 个 region 所 在 的 服务 器 上 。 而 我 们 需 
要 的 是 同 所 有 region 发 送 请 求 ， 即 所 有 region 服 务 器 ， 这 样 它 们 就 能 在 本 
地 计算 这 个 特定 列 的 所 有 值 之 和 。 一 旦 所 有 region 返 回 了 它们 的 计算 结 
果 ， 我 们 就 可 以 在 客户 端 收集 这 些 结果 并 计算 出 最 终结 果 。 如 果 数 据 有 
1000 个 region 和 100 万 列 ， 用 户 会 在 客户 端 得 到 1000 个 十 进 制 的 计算 结 

















果 ， 每 个 结果 对 应 一 个 region。 用 户 使 用 这 样 的 形式 计算 最 终结 果 的 速 
度 会 快 很 多 。 


如 果 用 户 使 用 普通 的 客户 逆 API 来 授 历 整个 表 ， 最 坏 的 情况 下 ， 用 
户 可 能 需要 将 100 万 列 的 数据 全 传 到 客户 端 来 计算 最 终结 果 。 所 以 将 计 
算 转移 到 服务 器 端 显 然 是 Tee EEE 不 过 HBase 可 能 不 知道 用 户 
具体 需要 做 什么 ， 为 了 死 服 这 些 问 题 ， 协 处 理 需 提供 了 以 endpoint 概 念 
为 代表 的 动态 调用 实现 。 


1. CoprocessorProtocol 接口 


为 了 给 客户 端 提 供 自 定义 的 RPC 协 议 ， 系 统 提供 了 一 个 协 处 理 器 实 
现 来 定义 扩展 CoprocessorProtocol 协议 的 接口 。 通 过 这 个 接口 可 以 
定义 协 处 理 器 希望 暴露 给 用 户 的 任意 方法 。 通 过 以 下 HTable 提供 的 调 
用 方法 ， 使 用 这 个 协议 可 以 和 协 处 理 器 实例 之 间 通 信 。 





< T extends CoprocessorProtocol> T coprocessorProxy( 
Class< T> protocol,byte[] row) 
< T extends CoprocessorProtocol,R> Map< byte[],R> coprocessorExec( 
Class< T> protocol,byte[] startKey,byte[] endKey, 
Batch.Call< T,R> callable) 


< T extends CoprocessorProtocol,R> void coprocessorExec( 
Class< T> protocol,byte[] startKey,byte[] endKey, 
Batch.Call< T,R> callable, Batch.Callback< R> callback) 





HI J-CoprocessorProtocol a ngs cae 起 ， 
所 以 客户 端的 RPC 调 用 必须 定义 region， 这 个 region 会 
在 CoprocessorProtocol 方法 的 调用 中 被 使 用 到 虽然 客户 端 代 码 很 
少 直 接 对 region 进 行 操作 ， 而 且 region 的 名 学 经 常 变化 ， 然而 协 处 理 器 
RPC 调 用 会 通过 行 键 来 查找 涉及 的 region。 客 户 端 可 以 调用 如 
下 CoprocessorProtocol 方法 。 


单个 region 
此 方法 使 用 单个 行 键 调用 coprocessorProxy() 。 返 回 一 


个 CoprocessorProtocol 接口 的 动态 代理 ， 它 使 用 包含 给 定 行 键 的 
region 作 为 RPC endpoint， 即 使 给 空 行 键 对 应 的 行 不 存在 也 不 影响 。 











一 段 范围 的 region 


此 方法 通过 使 用 起 始 行 键 和 终止 行 键 来 调用 coprocessorExec() 
。 表 中 包含 在 起 始 行 键 到 终止 行 键 〈 不 包含 终止 行 健 ) 范围 内 的 所 有 
region 都 将 作为 PRC endpoint. 


ww j 
一 一 作为 参数 被 传 入 到 HTable 的 方法 中 的 行 键 但 不 会 
传 入 CoprocessorProtocol 的 实现 中 ， 而 仅仅 被 用 于 确定 远 
端 调 用 的 endpoint 的 region 。 





Batch 类 为 CoprocessorProtocol 中 涉及 多 个 region 方 法 的 调用 
定义 了 两 个 接口 : 客户 端 实 现 了 Batch.Call 方法 来 调 
用 CoprocessorProtocol 实例 的 方法 。 每 个 选中 的 region 将 会 调用 一 
次 这 个 接口 的 call() 方法 ， 并 将 CoprocessorProtocol 实例 作为 
region 的 参数 。 


在 调用 完成 时 ， 客 户 端 可 以 选择 实现 Batch.Callback 来 传 回 每 次 
region 调 用 的 结果 。 


void update(byte[] region,byte[] row,R result) 





以 上 方法 在 被 调用 时 将 使 用 以 下 函数 R_ call(T instance) 返回 的 
值 作为 参数 ， 并 且 每 个 region 都 会 调用 并 返回 。 


2. BaseEndpointCoprocessor 类 
实现 一 个 endpoint 涉 及 以 下 两 个 步骤 。 


1. 扩展 CoprocessorProtocol 接口 。 


这 一 步 将 设 定 与 新 endpoint 的 通信 细节 ， 即 定义 了 客户 端 和 服务 器 
端的 PRC 协 议 。 


2. 扩展 BaseEndpointCoprocessor 类 。 


用 户 必须 实现 endpoint 涉 及 的 方法 ， 包 括 抽象 
类 BaseEndpointCoprocessor ， 以 及 之 前 定义 的 endpoint 协 议 接 口 。 


例 4.23 实 现 了 CoprocessorProtocol， 并 为 HBase 添 加 了 目 定 义 的 
方法 。 客 户 端 可 以 远程 调用 该 方法 来 统计 每 个 region 中 的 行 数 目 和 
KeyValue 数目 。 





例 4.23 endpoint 协 议 ， 添 加 一 个 行 和 KeyVvalue 的 计数 方法 


public interface RowCountProtocol extends CoprocessorProtocol { 
long getRowCount() throws IOException; 


long getRowCount(Filter filter)throws IOException; 


long getKeyValueCount() throws IOException; 
} 





第 二 步 是 将 新 协议 的 接口 和 继承 自 BaseEndpointCoprocessor 的 
类 结合 起 来 。 例 4.24 使 用 环境 提供 的 Internalscanner 实例 来 访问 数 
据 。 


例 4.24 endpoint 实现 增加 了 行 和 KeyValue 实例 的 统计 方法 





public class RowCountEndpoint extends BaseEndpointCoprocessor 
implements RowCountProtocol { 


private long getCount(Filter filter,boolean countKeyValues) 
throws IOException { 
Scan scan = new Scan(); 
scan.setMaxVersions(1); 
if(filter != null){ 
scan.setFilter(filter) ; 
} 


RegionCoprocessorEnvironment environment = 


(RegionCoprocessorEnvironment)getEnvironment(); 
// use an internal scanner to perform scanning. 
InternalScanner scanner = environment.getRegion().getScanner(scan); 
int result = Q; 
try { 
List< KeyValue> curVals = new ArrayList< KeyValue>(); 
boolean done = false; 
do { 
curVals.clear(); 
done = scanner.next(curVals); 
result += countKeyValues ? curVals.size() : 1; 
} while(done); 
} finally { 
scanner.close(); 


} 


return result; 


} 


@Override 
public long getRowCount() throws IOException { 
return getRowCount(new FirstKeyOnlyFilter()); 


} 


@Override 
public long getRowCount(Filter filter)throws IOException { 
return getCount(filter, false) ; 


} 


@Override 
public long getKeyValueCount() throws IOException { 
return getCount (null, true) ; 
} 
} 





注意 例子 中 如 何 使 用 FirstKeyOnlyFilter 来 减少 扫描 的 列 数 。 


te") a 


s 用 户 需 要 癌 hpase-site.xml 中 添加 (或 者 修改 以 前 的 


hbase-site.xml ) 如 下 配置 来 确保 你 的 endpoint 协 处 理 器 可 以 被 
region 服 务 器 加 载 : 


< property> 
< name>hbase.coprocessor.region.classes< /name> 
< value>coprocessor.RowCountEndpoint< /value> 


< /property> 





同 以 往 一 样 ， 需 要 重启 HBase 来 保证 这 些 设置 生效 。 





例 4.25 展 示 了 客户 端 如 何 使 用 HTable 的 调用 来 执行 部 署 好 的 协 处 
理 器 endpoint 函 数 。 由 于 统计 请 求 被 单独 分 发 到 每 个 region 上 ， 最 后 需要 
对 结果 进行 归并 处 理 。 


例 4.25 ”使 用 自 定义 行 计数 endpoint 





public class EndpointExample { 


public static void main(String[] args)throws IOException { 

Configuration conf = HBaseConfiguration.create(); 

HTable table = new HTable(conf,"testtable") ; 

try { 

Map< byte[],Long> results = table.coprocessorExec( 

RowCountProtocol.class,@ 
null,null,e 
new Batch.Call< RowCountProtocol,Long>() { © 


@Override 
public Long call(RowCountProtocol counter)throws IOException { 
return counter.getRowCount();@ 
} 
})3 


long total = ð; 

for(Map.Entry< byte[],Long> entry : results.entrySet()){ © 
total += entry.getValue().longValue(); 
System.out.println("Region: " + Bytes.toString(entry.getKey())+ 

",Count: " + entry.getValue()); 
} 
System.out.println( "Total Count: " + total); 
} catch(Throwable throwable){ 
throwable.printStackTrace(); 





OE SC BAF AS PR A o 


四 设置 起 始 行 键 和 终止 行 键 为 nall， 来 统计 所 有 的 行 。 

全 创建 一 个 发 往 所 有 region 服 务 器 的 匿名 类 。 

@call() 方法 将 会 执行 endpoint 功 能 。 

加 遍历 返回 的 键 值 映射 结果 ， 其 中 包含 了 每 个 region 的 结 


这 段 代 码 返 回 了 每 个 region 的 名 字 ， 每 个 region 包 含 了 多 少 行 和 最 终 
计数 : 


Region: testtable,,1363417572665.51f9e2251c29ccb2.. .cbcb6c66858f.，Count : 
2 
Region: testtable,row3,1363417572665.7f3df4dcba3f. . .dbc99fce5d87.，Count : 
3 


Total Count: 5 








Batch 类 提供 了 男 一 种 更 加 便捷 的 方法 来 访问 远程 endpoint， 使 
用 Batch .forMethod() 会 得 到 一 个 已 经 配置 好 的 Batch.Call 实例 ， 
a 例 4.26 使 用 了 这 个 方法 来 修改 
一 个 例 了 于 。 





例 4.26 ”使 用 Batch.forMethod() 来 减少 代码 数目 


Batch.Call call = Batch.forMethod(RowCountProtocol.class, 


"getKeyValueCount" ) ; 


Map< byte[],Long> results = table.coprocessorExec( 
RowCountProtocol.class,null,null,call); 








forMethod() 方法 使 用 Java 的 反射 机 制 来 获取 给 定 的 方法 ， 返 回 的 
Batch.Call 实例 将 会 执行 andpoint 的 功能 ， 并 且 返 回 此 方法 的 协议 定 
义 的 应 返回 的 数据 类 型 。 

然而 ， 如 果 通 过 直接 扩展 Batch .Cal1 实例 ， 可 以 对 这 些 结果 执行 
额外 的 处 理 ， 这 样 处 理会 更 加 方便 和 灵活 。 例 4.27 展 示 了 批量 处 理 多 个 
endpoint 请 求 ， 并 统计 每 个 region 的 行 数 和 KeyValue 数 。 


例 4.27 ”扩展 批量 调用 来 执行 多 个 endpoint 的 调用 





Map< byte[],Pair< Long,Long>> results = table.coprocessorExec( 
RowCountProtocol.class, 
null,null, 
new Batch.Call< RowCountProtocol,Pair< Long,Long>>() { 


public Pair< Long,Long> call(RowCountProtocol counter) 


throws IOException { 


return new Pair(counter.getRowCount(), 


counter.getKeyValueCount() ); 


} 
}); 


long totalRows = ®; 

long totalKeyValues = @; 

for(Map.Entry< byte[],Pair< Long,Long>> entry : results.entrySet()){ 
totalRows += entry.getValue().getFirst().longValue(); 
totalKeyValues += entry.getValue().getSecond().longValue(); 
System.out.println("Region: " + Bytes.toString(entry.getKey())+ 
"Count: " + entry.getValue()); 

} 

System.out.println("Total Row Count: " + totalRows); 

System.out.println("Total KeyValue Count: " + totalKeyValues); 





运行 这 个 例子 ， 输 出 如 下 : 


Region: testtable,,1363426252525.9c336bd2b294a. ..0647a1f2d13b.,Count: {2,4 


} 
Region: testtable, row3, 1303420252525 .6d7c95de8a7...386cfec7f2.,Count: {3,6 


} 


Total Row Count: 5 
Total KeyValue Count: 10 








到 目前 为 止 ， 示 例 都 使 用 coprocessorExec() 请 求 来 集中 所 有 
region 的 请 求 ， 这 些 请 求 通过 起 始 和 终止 行 键 确 定 region。 例 4.28 中 使 
用 coprocessorProxy() 获取 了 一 个 endpoint 的 本 地 客户 端 代理 。 由 于 
行 键 被 指定 了 ， 不 管 这 个 行 键 在 region 中 是 否 存在 ， 只 要 这 个 行 健在 
region 的 起 始 行 键 和 终止 行 健 之 间 ， 客 户 端 API 都 会 通过 行 键 路 由 该 代理 
调用 到 包含 这 个 行 键 的 region。 


例 4.28 ”使 用 HTable 的 代理 调用 单个 region 的 endpoint 


RowCountProtocol protocol = table.coprocessorProxy( 
RowCountProtocol.class,Bytes.toBytes("row4")); 
long rowsInRegion = protocol.getRowCount(); 


System.out.println("Region Row Count: " + rowsInRegion); 





通过 使 用 代理 引用 ， 客 户 端 代 码 可 以 调用 任 
何 CoprocessorProtocol 中 摘 述 的 服务 器 端 函 数 ， 同 时 可 以 返回 对 应 
region 的 处 理 结果 。 图 4-5 说 明了 两 种 方法 的 差异 。 


RegionServer 1 
Batch.Call<RowCountProtocol, Long> 


Long call (RowCountProtocol p) ( 
return p.getRowCount(); 


HTable 


coprocessorExec( 
RowCountProtocol.class, 
null, null, call) 


table, row-7, 123456789 


HTable 


RowCountProtocol p = coprocessorProxy( 
RowCountProtocol.class, “row-890") 


Long countInRegion = 
p.getRowCount() 


图 4-5” 协 处 理 器 的 请 求 方式 分 为 两 种 : 批量 处 理 并 且 在 多 个 region 上 并 行 执行 ， 或 者 只 涉及 单 


个 region 





4.4 HTablePool 


与 其 为 客户 端的 每 个 请 求 创建 一 个 HTable 实例 ， 不 如 创建 一 个 实 
例 ， 然 后 不 断 地 复 用 这 个 实例 。 


按 以 上 方式 操作 的 主要 原因 ， 是 创建 HTable 实 例 是 一 项 非常 耗 时 
的 操作 ， 通 常 耗 时 数秒 才能 完成 。 在 资源 高 度 紧 张 的 环境 中 ， 每 秒 都 有 
几 千 个 请 求 ， 为 每 个 请 求 单独 创建 HTable 实例 根本 行 不 通 ， 这 种 方式 
速度 太 慢 了 以 至 于 无 法 调用 方法 。 用 户 应 当 在 一 开始 创建 实例 ， 然 后 在 
客户 端 生命 周期 内 不 断 复 用 他 们 。 


但 是 ， 在 多 线程 环境 中 重用 HTable 实例 会 出 现 其 他 问题 。 








| 

M Table 类 不 是 线程 安全 的 ， 本 地 的 写 缓冲 区 并 不 能 
保证 一 致 性 。 即 使 使 用 setAutoFLush(true) (默认 设置 ， 
详 见 3.2.1 节 的 “客户 端的 写 缓冲 区 ”) 也 无 济 于 事 。 你 必须 为 
每 个 线程 创建 一 个 HTable 实例 。 


客户 端 可 以 通过 HTablePool 类 来 解决 这 个 问题 。 它 只 有 一 个 目 
的 ， 那 就 是 为 HBase 集 群 提 供 客户 端 连 接 池 。 用 户 可 以 通过 以 下 其 中 一 
个 构造 器 来 创建 池 : 


HTablePool() 
HTablePool(Configuration config,int maxSize) 
HTablePool(Configuration config,int maxSize, 


HTableInterfaceFactory tableFactory) 





默认 构造 器 ， 即 没有 参数 的 那个 ， 使 用 classpath 中 的 配置 创建 一 个 





表 实 例 池 ， 设 定 大 小 为 无 限 。 这 等 价 于 使 用 第 二 个 构造 函数 编写 以 下 例 
Ff: 


Configuration conf = HBaseConfiguration.create() 
HTablePool pool = new HTablePool(conf, Integer .MAX_VALUE) 





maxSize 参数 是 连接 池 中 允许 的 最 大 HTable 实例 数目 。 可 选 参 
数 tableFactory 将 会 被 用 来 操作 上 自 定 义工 厂 类 ， 以 创建 实际 的 HTable 
实例 。 


HTableInterfaceFactory 接口 


用 户 可 以 创建 自 定义 的 工厂 类 ， 例如， 为 HTable 实例 
使 用 特定 的 配置 。 或 者 可 以 让 实例 完成 一 些 初 始 化 操作 ， 
比如 添加 行 ， 或 者 更 新 计数 器 。 如 果 用 户 想 自己 扩 
展 HTableInterfaceFactory ， 则 必须 实现 下 面 两 个 方 
yes 


HTableInterface createHTableInterface(Configuration config, 
byte[] tableName) 
void releaseHTableInterface(HTableInterface table) 





第 一 个 方法 用 于 创建 HTable 实例 ， 第 二 个 方法 用 于 释 
放 实 例 。 用 户 可 以 在 调用 前 准备 好 实例 ， 并 在 使 用 完成 之 





后 进行 一 些 相 应 的 清除 操作 。 用 户 要 特别 注意 在 共享 表 引 

用 时 对 客户 端 写 缓冲 区 的 处 

理 。releaseHTableInterface() 是 完成 一 些 隐 式 的 操作 
的 理想 方法 ， 比 如 写 绥 冲 区 刷 写 、 调 用 flushCommits() 

请 求 。 


工厂 类 有 个 默认 的 实现 ， 叫 HTableFactory ， 当 工厂 
调用 create 方法 时 创建 HTable 实例 ， 当 调用 release 方法 
时 调用 HTable.close() 。 








如 果 用 户 不 指定 自己 的 工厂 类 ， 系 统 会 默认 使 
用 HTableFactory。 


可 以 用 如 下 调用 方式 来 使 用 表 实 例 池 : 


HTableInterface getTable(String tableName) 
HTableInterface getTable(byte[] tableName) 
void putTable(HTableInterface table) 





getTable() 方法 从 表 实 例 池 中 获取 HTable 实例 ， 使 用 之 后 通过 
putTable() 方法 放 回 。 以 上 两 种 方法 把 一 些 工作 迁移 到 了 表 实 例 池 配 
置 的 HTableInterfaceFactory 接口 。 


ww 为 
nw 
` ` 


as 
wW a 


一 一 全 maxsize 参数 并 不 强行 限制 用 户 所 能 得 到 的 
HTableInterface 实例 的 上 界 ， 用 户 可 以 使 用 getTable() 





方法 访问 尽 可 能 多 得 Table 实 例 。 


这 个 参数 仅仅 设置 表 实 例 池 中 能 够 存放 的 
HTableInterface 实例 的 数目 。 例 如 ， 当 用 户 将 这 个 值 设置 
为 5 时 ， 调 用 10 次 getTable() 会 创建 10 个 HTable 实例 。 不 
过 之 后 只 有 5 次 putTable() 方法 发 挥 作用 ， 后 面 5 次 会 被 直 
接 忽略 。 更 重要 的 是 ， 工 三 的 释放 Crelease) 机制 也 不 会 被 
调用 。 











这 些 是 关闭 表 实例 池 中 特定 表 实例 的 方法 : 


void closeTablePool(String tableName) 
void closeTablePool(byte[] tableName) 





很 明显 ， 这 两 个 方法 的 功能 是 相同 的 ， 一 个 方法 的 参数 是 string 
， 必 一 个 方法 的 参数 是 byte[] ， 用 户 可 以 按 自 己 的 需要 使 用 其 中 任意 








close 方法 会 表 历 所 有 保存 在 列表 中 与 参数 对 应 的 表 引 用 ， 然 后 使 
用 工厂 的 释放 机 制 。 这 对 于 释放 一 张 表 的 所 有 资源 ， 并 重头 再 来 非常 有 
用 。 请 记 住 ， 所 有 的 资源 都 需要 释放 ， 用 户 需 要 对 自己 使 用 过 的 所 有 表 
都 调用 这 个 方法 。 


例 4.29 展 示 了 如 何 创 建 和 使 用 HTablePool 。 








例 4.29 ”使 用 HTablePool 来 共享 HTable 实例 





Configuration conf = HBaseConfiguration.create(); 
HTablePool pool = new HTablePool(conf,5);@ 


HTableInterface[] tables = new HTableInterface[1@]; 
for(int n = @;n < 10;n++)f{ 
tables[n] = pool.getTable("testtable");e 


System.out.println(Bytes.toString(tables[n].getTableName())); 
} 


for(int n = ð;n < 5;n++){ 
pool.putTable(tables[n]);e 
} 


pool.closeTablePool ("testtable") ; @ 





各 创建 表 实 例 池 ， 并 人 允许 保留 5 个 实例 。 
四 获取 10 个 实例 ， 超 出 容量 5 个 
合 咎 表 实 例 池 返 还 HTable 实例 ， 其 中 的 5 个 会 被 保留 ， 多 余 的 会 被 


K Fo 
@@ 关 闭 整个 表 实 例 池 ， 释 放 其 中 保留 的 表 实 例 引 用 。 
控制 台 展 示 结 果 如 下 : 


Acquiring tables... 
testtable 
testtable 
testtable 
testtable 
testtable 
testtable 
testtable 


testtable 
testtable 
testtable 
Releasing tables... 
Closing pool... 





之 前 已 经 讨论 过 了 使 用 多 于 配置 数目 的 HTable 实例 的 问题 。 虽 然 
将 实例 返回 到 Tablepool 时 没有 相应 日 志和 打印 输出 ， 但 释放 资源 的 相 
天 操作 还 是 会 在 后 台 完 成 。 


使 用 场景 : Hush 


Hush 中 所 有 的 表 都 是 使 用 表 实 例 池 来 获取 的 。 下 面 是 
使 用 表 实 例 池 共享 表 实例 的 代码 。 


private ResourceManager(Configuration conf)throws IOException { 
this.conf = conf; 
this.pool = new HTablePool(conf,1@) ; 
Leet OF 

} 


public HTable getTable(byte[] tableName)throws IOException { 
return(HTable)pool.getTable(tableName) ; 


} 


public void putTable(HTable table)throws IOException { 
if(table != null){ 
pool.putTable(table) ; 
} 
} 





下 面 的 代码 演示 了 如 何在 上 下 文中 调用 这 些 代码 ， 如 
何 从 表 实 例 池 中 获取 表 引 用 ， 以 及 如 何 使 用 完成 之 后 再 交 
还 表 实 例 池 中 。 





public void createUser(String username,String firstName,String lastName, 
String email,String password,String roles)throws IOException { 
HTable table = rm.getTable(UserTable.NAME) ; 


Put put = new Put(Bytes.toBytes(username) ) ; 

put.add(UserTable.DATA_FAMILY,UserTable.FIRSTNAME, 
Bytes.toBytes(firstName) ) ; 

put.add(UserTable.DATA_FAMILY,UserTable.LASTNAME, Bytes.toBytes (lastName 

) ) ; 

put.add(UserTable.DATA_FAMILY,UserTable.EMAIL,Bytes.toBytes (email)); 

put.add(UserTable.DATA_FAMILY,UserTable.CREDENTIALS, 
Bytes.toBytes(password) ); 

put.add(UserTable.DATA_FAMILY,UserTable.ROLES,Bytes.toBytes (roles) ); 

table.put(put) ; 

table.flushCommits(); 

rm.putTable(table) ; 





4.5 连接 管理 


每 个 HTable 实 例 都 需要 建立 和 远程 主机 的 连接 。 这 些 连 接 在 内 部 使 
用 HConnection 类 表示 ， 更 重要 的 是 ， 其 被 HConnectionManager 类 
管理 并 共享 。 用户 没 有 必要 同时 和 这 两 个 类 打交道 ， 只 需要 创建 一 
个 Configuration 实例 ， 然 后 利用 客户 端 API 使 用 这 些 类 。 


HBase 内 部 使 用 键 值 映射 来 存储 连接 ， 使 用 Configuration 实例 作 
为 键 值 映射 的 键 。 换 句 话 说 ， 当 你 创建 很 多 HTable 实例 时 ， 如 果 你 提 
供 了 相同 的 Configuration 引用 ， 那 么 它们 都 共享 同一 个 底层 的 
HConnection 实例 。 有 关 细 节 如 下 所 示 。 





共享 ZooKeeper 连 接 


因为 每 个 客户 端 最 终 都 需要 ZooKeeper 连 接 来 完成 表 的 region 地 址 初 
始 寻 址 。 连 接 一 旦 建立 后 ， 共 享 束 变 得 很 有 意义 ， 这 使 得 之 后 的 客户 站 
实例 可 以 共用 。 


通过 ZooKeeper 查 询 到 的 -ROOT- 和 .META. 的 地 址 ， 以 及 region 的 地 
址 定位 都 需要 网 络 传输 开销 。 这 些 地 址 将 被 缓存 在 客户 端 来 减少 网 络 的 
调用 次 数 ， 因 此 达到 加 速 寻 址 的 目的 。 


对 于 每 个 连接 到 远程 集群 的 本 地 客户 端 来 说 ， 它 们 的 地 址 表 都 是 相 
同 的 ， 因 此 运行 相同 进程 的 客户 端 共享 连接 非常 有 用 ， 这 是 通过 共享 
HConnection 实例 来 实现 的 。 男 外 ， 当 寻 址 失败 时 (如 region 拆 分 
IN) ， 连 接 有 内 置 的 重 试 机 制 来 刷新 缓存 ， 对 于 其 他 所 有 共享 相同 连接 
引用 的 客户 端 来 说 ， 这 项 更 改 立 即 生效 ， 因 此 这 更 加 减少 了 客户 端 初始 
化 连接 的 开销 。 

男 一 个 受益 的 类 是 HTablePool ， 所 有 连接 池 中 的 HTable 实例 都 
自动 共用 一 个 提供 的 Configuration 实例 ， 因 此 它们 也 共享 连接 。 


为 当 用 户 想 创建 多 个 HTable 实例 时 ， 最 好 先 创 建 一 个 共用 的 
Configuration 实例 。 


HTable table1 = new HTable("table1") ; 
































UT soa 
HTable table2 = new HTable("table2") ; 





上 述 代码 不 如 以 下 代码 有 效 : 


Configuration conf = HBaseConfiguration.create(); 
HTable table1 = new HTable(conf,"table1"); 


ere 


HTable table2 = new HTable(conf,"table2"); 








后 者 陷 式 共享 HBase 客 户 端 API 类 提供 的 连接 。 


Fa 
nA 
as 
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题 ， 即 使 在 繁忙 的 多 线程 环境 下 也 是 如 此 。 











共享 连接 的 缺点 在 于 释放 ， 如 果 用 户 不 显 式 关闭 连接 ， 它 将 一 直 存 
在 ， 直 到 客户 端 退 出 。 这 样 可 能 导致 很 多 ZooKeeper 连 接 都 保持 打开 状 
态 ， 尤 其 是 在 大 型 分 布 式 环境 下 ， 比 如 执行 MapReduce 作 业 的 HBase 程 
序 ， 这 样 可 能 会 产生 一 些 问 题 。 最 坏 的 情况 是 耗 尽 所 有 的 连接 句柄 或 内 
存 ， 并 导致 1O 异 常 。 

用 户 可 通过 显 式 关 闭 连接 来 避免 这 种 情况 。 建 议 用 户 不 再 需要 
HTable 时 主动 调用 HTable 的 close() 方法 ， 调 用 这 个 方法 将 释放 所 有 
a 其 中 包括 ZooKeeper 连 接 ， 同 时 移 除 内 部 列表 中 的 连接 引 








每 次 用 户 重 用 Configuration 实例 时 ， 连 接管 理 器 都 会 增加 引用 





计数 。 因 此 用 户 必 须 调用 close() 来 触发 清除 工作 。 以 下 是 用 显 式 的 方 
法 来 清理 一 个 连接 或 所 有 连接 。 





static void deleteConnection(Configuration conf,boolean stopProxy) 
static void deleteAllConnections(boolean stopProxy) 








所 有 的 共享 连接 都 是 按照 Configuration 实例 作为 键 ， 因 此 用 户 
需要 提供 这 个 实例 来 关闭 相应 的 连接 。 布 尔 类 型 参数 stopProxy 保证 强 
制 清除 整个 客户 端的 RPC 栈 ， 因 此 不 再 需要 远程 连接 服务 器 时 ， 应 该 将 
这 个 参数 设置 为 true 。 


deleteAllConnections() 函数 只 需要 stopProxy BA, ‘Eile 
历 整 个 连接 管理 器 注册 过 的 共享 连接 列表 ， 然 后 逐一 释放 连接 。 


如 有 果 用 户 需 要 显 式 地 使 用 某 个 连接 ， 可 以 通过 如 下 方式 使 
用 getConnection() 方法 。 





Configuration newConfig = new Configuration(originalConf); 
HConnection connection = HConnectionManager.getConnection(newConfig); 
// Use the connection to your hearts' delight and then when done... 


HConnectionManager.deleteConnection(newConfig, true) ; 











这 样 操作 的 好 处 是 可 以 保证 这 个 连接 的 用 户 唯一 ， 但 是 ， 切 记 必 须 
要 在 调用 结束 后 关闭 它 。 








O 各 种 过 滤器 方法 在 4.1.6 节 中 讨论 。 
D 见 表 4-5 中 有 关 过 滤器 兼容 的 概述 。 


© 协 处 理 器 是 最 近 添 加 到 HBase 中 的 ， 因 此 最 近 还 有 变化 。 在 线 的 文档 
和 问题 跟踪 系 统 都 不 完善 ， 但 在 计划 增加 中 。 


由 见 链接 





http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/coprocessor/Regic 


o 


© API 文 档 见 http://hbase.apache.org/apidocs/ 。 


© API 文 档 见 http://hbase.apache.org/apidocs/ 。 
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第 5 音 ”客户 端 API: 管理 功能 
除了 进行 数据 处 理 的 客户 端 API，HBase 还 提供 了 数据 描述 的 APT， 


类 似 于 传统 RDBMS 中 的 DDL 与 DML。 首 先 我 们 来 看 看 数据 模式 定义 的 
类 ， 然 后 探讨 如 何 使 用 这 些 API， 例 如 ， 建 表 。 


51 模式 定义 


在 HBase 中 建 表 涉及 到 表 结 构 以 及 所 有 涉及 的 列 族 列 族 结构 的 定 
义 ， 这 些 定义 关系 到 表 和 列 族 内 的 数据 如 何 存 储 以 及 何 时 存储 。 





5.1.1 表 


在 HBase 中 数据 最 终 会 存储 在 一 张 表 或 多 张 表 中 ， 使 用 表 的 主要 原 
因 是 控制 表 中 的 所 有 列 以 达到 共 吝 表 内 的 茶 些 特性 的 目的 ， 一 个 典型 的 
例子 是 定义 表 的 列 族 。 下 面 是 表 描 述 符 的 构造 函数 。 


HTableDescriptor(); 
HTableDescriptor(String name) ; 
HTableDescriptor(byte[] name); 
HTableDescriptor(HTableDescriptor desc); 





Writable 和 无 参数 的 构造 函数 








API 提 供 的 大 多 数 类 和 本 章 中 讨论 到 的 类 都 拥有 一 个 特 
殊 的 构造 函数 ， 即 一 个 不 带 任 何 参数 的 构造 函数 。 因 为 这 
些 类 都 实现 了 Hadoop Writable 接口 。 


任意 不 相交 系统 间 的 远程 通信 : 例如 ， 客 户 端 与 服务 
器 端 进行 交互 ， 或 者 服务 器 问 彼 此 进行 内 部 通信 ， 都 使 用 
到 了 Hadoop RPC 框 架 。 这 个 框架 中 需要 远程 方法 中 的 参数 
都 实现 Writable 接口 ， 进 而 能 够 序列 化 对 象 并 进行 远程 传 
输 。Writable 接口 有 两 个 必须 实现 的 方法 : 


void write(DataOutput out)throws IOException; 
void readFields(DataInput in)throws IOException; 





框架 通过 调用 这 两 个 方法 把 对 象 序列 化 成 输出 流 ， 通 
fa BME RF Wt, FEI BOT Ae NESE TE BL 
据 发 送 端 调用 write() 方法 ， 并 序列 化 对 象 的 字段 ， 同 时 
会 在 字 节 流 中 添加 类 名 以 及 其 他 一 些 信息 。 


数据 接收 服务 器 先 读 取 元 数据 信息 ， 并 创建 类 的 无 参 
数 实 例 ， 然 后 调用 新 创建 对 象 的 readFields() 方法 ， 将 
字 节 流 中 的 信息 读 取 到 对 应 对 象 的 字段 中 ， 用 户 可 以 理解 
为 这 是 数据 发 送 端 对 象 的 一 个 可 运行 的 ， 已 经 初始 化 的 完 
整 副 本 。 


因为 数据 接收 端 首 移 读 取 元 数据 并 创建 该 类 的 空 实 
例 ， 并 通过 readFields() 方法 及 序列 化 字段 信息 到 新 创 
建 的 实例 中 。 通 种 客户 端 与 服务 器 端 需 要 使 用 相同 的 HBase 
JAR。 


如 果 用 户 开 发 并 扩展 了 HBase 的 基础 实现 ， 例 如 ， 过 滤 
器 和 协 处 理 器 《〈 见 第 4 草 ) ， 用 户 必 须 确保 满足 以 下 条 件 。 





1. 在 RPC 通 信 两 端 都 必须 可 用 ， 即 在 数据 及 送 进程 与 
数据 接收 进程 均 可 用 。 


2. 实现 Writable 接口 ， 并 实现 了 write() 
与 readFields() 方法 。 


3. 拥有 无 参数 的 构造 函数 ， 即 一 个 没有 任何 输入 参数 
的 构造 函数 。 


如 果 运 行 时 无 法 使 用 这 个 特殊 的 构造 函数 生成 实例 ， 
则 会 报 运行 时 错误 ， 并 且 从 代码 中 显 式 调用 该 构造 函数 也 
是 徒劳 的 ， 因 为 留 下 了 不 同 于 预期 定义 且 未 初始 化 的 变 





> 


客户 端 API 开 发 人 员 必 须 了 解 RPC 的 潜在 依赖 ， 以 及 怎 
样 部 署 API。 在 扩展 HBase 代 码 时 ， 高 级 开发 人 员 需 要 适当 
地 实现 和 部 署 自 定义 代码 。 详 情 见 4.1.6 节 的 相关 例子 。 





用 户 可 以 通过 表 名 或 已 有 的 表 描 述 符 来 创建 表 。 没 有 任何 参数 的 构 
造 函 数 仅 仅 是 为 了 反 序 列 化 ， 并 且 不 应 被 直接 使 用 。 表 名 通 负 使 用 Java 
String 类 型 或 byte[] (二 进 制 数组 ) 表示 ，HBase 中 的 很 多 功能 都 提 
供 以 上 两 种 参数 类 型 的 选择 。 使 用 字符 串 明 显 是 为 了 方便 使 用 ， 在 
HBase 内 部 通常 会 将 字符 串 转化 为 字 节 数组 处 理 ，HBase 也 是 这 样 的 处 
理 模 式 。HBase 中 提供 的 Bytes 类 有 转化 功能 ， 示 例如 下 : 


byte[] name = Bytes.toBytes("test"); 
HTableDescriptor desc = new HTableDescriptor(name); 





表 名 会 作为 存储 系统 中 存储 路 径 的 一 部 分 来 使 用 ， 因 此 必须 要 符合 
文件 名 规范 ， 因 此 构成 表 名 的 字符 是 有 限制 的 。 用 尸 可 以 直接 碍 看 低级 
别 存 储 系统 ， 例 如 ， 用 户 在 HDFS 中 可 以 看 到 每 张 表 的 表 名 都 作为 独立 
的 目录 结构 一 一 在 东 些 情况 下 ， 用 户 可 能 会 需要 查看 这 部 分 信息 。 


HBase 列 式 存 储 格式 允许 用 户 存 储 大 量 的 信息 到 相同 的 表 中 ， 而 在 
RDBMS 模 型 中 ， 大 量 信 息 则 需要 切 分 成 多 张 表 存 储 。 通 种 的 数据 库 范 
式 化 © 规则 不 适合 HBase， 因 此 HBase 中 表 的 数量 相对 较 少 。 更 多 详情 





























在 1.3.3 节 。 


虽然 理论 上 HBase 的 表 是 由 行 和 列 组 成 的 ， 但 是 从 物理 结构 上 看 ， 
表 存 储 在 不 同 的 分 区 ， 即 不 同 的 region。 图 5-1 展 示 了 数据 存储 逻辑 与 物 
理 上 的 不 同 。 每 个 region 只 在 一 个 region 服 务 器 中 提供 服务 ， 而 region 直 
接 回 客户 端 提供 存储 服务 。 





Table - Logical View Regions - Physical Layout RegionServer - Serving Layer 


RegionServer 
He 


图 5-1 ”region 中 行 的 逻辑 与 物理 视图 





5.1.2 表 属 性 

表 提 供 了 getter 与 setter © 方法 来 设置 表 的 其 他 属性 。 实 际 上 ， 这 些 
属性 中 的 大 部 分 都 很 少 用 到 ， 但 是 这 些 属性 非 浓 重要， 用 户 可 以 使 用 这 
些 方法 来 微调 表 的 性 能 ， 因 此 用 户 需 要 了 解 它们 。 


名 





构造 函数 中 已 经 有 设置 表 名 的 参数 ，Java API 也 提供 了 显 式 设 置 表 
名 的 方法 。 


byte[] getName(); 
String getNameAsString(); 
void setName(byte[] name); 





LA 

—— 表 名 一 定 不 能 以 <”( 结 束 符 ) R GES) 开 
头 。 表 名 只 能 包含 拉丁 字母 或 数字 ， 以 及 “”( 下 划 

线 ) 、“-”( 连 字符 ) 或 <”( 结 束 符 ) 。 按 照 正 则 表达 式 语 
法 ， 其 规则 可 表示 为 [a-zA-Z_0-9-.]。 








例如 ，.testtable 是 错误 的 表 名 ，test.table 是 正确 
的 表 名 。 





有 关 表 名 如 何在 文件 系统 路 径 中 使 用 的 内 容 在 5.1.3 节 和 图 5-2 中 。 
列 族 
列 族 是 表 中 非常 重要 的 一 部 分 ， 用 户 需 要 在 表 中 指定 将 要 使 用 的 列 





TR 。 





void addFamily(HColumnDescriptor family); 
boolean hasFamily(byte[] c); 
HColumnDescriptor[ ] getColumnFamilies(); 
HColumnDescriptor getFamily(byte[ ]column) ; 
HColumnDescriptor removeFamily(byte[] column); 


[ | 

用 户 可 以 添加 列 族 、 通 过 列 族 名 来 检查 列 族 是 否 存 在 、 获 取 存 在 的 
列 族 的 列表 、 获 取 某 个 列 族 描述 符 (HColumnDescriptor ) 或 删除 某 
个 列 族 等 操作 。 更 多 有 关 HColumnDescriptor 的 信息 在 5.1.3 节 中 。 
文件 大 小 限制 


这 个 参数 限制 了 表 中 region 的 大 小 。 通 过 以 下 方法 可 以 显 式 地 获取 
和 设置 该 参数 的 值 : 





long getMaxFileSize(); 
void setMaxFileSize(long maxFileSize) ; 








th, 
ES 文件 大 小 限制 并 不 能 表达 其 真正 的 含义 ， 其 真正 含 
义 应 该 是 每 个 存储 单元 的 大 小 限制 ， 即 一 个 列 族 有 若干 个 存 
储 单元 ， 而 其 中 每 个 存储 单元 会 包含 若干 个 文件 。 如 果 一 个 
列 族 的 存储 单元 已 使 用 的 存储 空间 超过 了 大 小 限制 ，region 将 
发 生 拆 分 操作 。 所 以 这 个 参数 被 称 为 naxStoreSize 更 合 


if. 














当 region 的 大 小 达到 配置 的 大 小 时 ， 文 件 大 小 限制 会 帮助 HBase 拆 
分 region，1.4 节 详细 讨论 了 如 何 通 过 region 进 行 线性 拓展 和 负载 均衡 。 
因此 用 户 需 要 了 解 这 个 参数 应 该 设置 为 多 少 合适 ， 这 个 参数 的 默认 值 是 
256 MB， 设 置 为 多 少 关 键 要 看 使 用 场景 ， 例 如 ， 表 数据 量 非常 的 大 情 
况 下 ， 用 户 可 以 酌情 考虑 将 这 个 值 调 高 。 


请 注意 ， 这 个 参数 是 个 大 致 的 预期 值 ， 而 在 东 种 特定 条 件 下 ， 文 件 


大 小 可 能 会 超过 这 个 参数 的 大 小 ， 并 且 不 会 带 来 影响 。 例 如 ， 用 户 将 这 
个 参数 设置 为 10 MB， 然 后 插入 了 一 行 大 小 为 20MB 的 值 ， 由 于 一 行 数 
据 不 能 跨 region 存 储 ， 因 此 系统 也 就 不 会 拆 分 该 行 数据 。 


只 读 
默认 所 有 的 表 都 可 写 ， 但 是 ， 对 一 些 特殊 的 表 来 说 ， 只 读 参 数 有 特 


殊 的 用 途 。 如 果 该 参数 设置 为 true ， 这 个 表 只 能 读 而 不 能 修改 数据 。 
通过 以 下 方法 可 获取 和 设置 该 参数 : 





boolean isReadOnly(); 
void setReadOnly(boolean readOnly) ; 





memstore 刷 写 大 小 


早期 我 们 讨论 到 HBase 内 存 中 预 留 了 写 绥 冲 区 ， 写 操作 会 写 入 到 写 
缓冲 区 中 ， 然 后 按照 合适 的 条 件 顺序 写 入 到 磁盘 的 一 个 新 存储 文件 中 ， 
这 个 过 程 称 为 刷 写 Cush) 。 这 个 参数 能 够 控制 何 时 触发 将 内 存 中 的 
数据 写 入 到 磁盘 的 事件 。 示 例 方法 如 下 : 





long getMemStoreFlushSize() ; 
void setMemStoreFlushSize(long memstoreFlushSize) ; 





上 面 提 到 的 文件 大 小 限制 跟 需 求 相 关 ， 该 参数 的 默认 值 是 64 MB. 
该 参数 越 大 ， 可 以 生成 的 存储 文件 越 大 ， 文 件数 量 会 越 少 ， 同 时 也 会 导 
致 更 长 的 阻塞 时 间 问 题 。 这 种 情况 下 ，region 服 务 八 不 能 持续 接收 新 增 
加 的 数据 ， 请 求 被 阻 暑 的 时 间 也 就 随 之 增加 了 ， 此 外 ， 一 旦 服务 器 出 
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我 们 需要 注意 的 是 ，HBase 有 两 种 将 WAL 保 存 到 磁盘 的 方式 ， 一 种 是 延 
时 日 志 刷 写 (deferred log flushing) ， 另 一 种 则 不 是 。 这 个 参数 是 一 个 
布尔 类 型 变量 ， 默 认 设置 为 false 。 下 面 是 通过 Java API 模 式 设 置 参数 
的 方法 : 





synchronized boolean isDeferredLogFlush(); 
void setDeferredLogFlush(boolean isDeferredLogFlush) ; 





其 他 选项 


除了 已 经 所 到 的 属性 ， 还 有 一 些 提供 给 用 户 设 置 任意 键 值 对 的 方 
法 : 





byte[] getValue(byte[] key){ 

String getValue(String key) 

Map< ImmutableByteswWritable, ImmutableBytesWritable> getValues() 
void setValue(byte[] key,byte[] value) 


void setValue(String key,String value) 
void remove(byte[] key) 








以 上 方法 中 的 数据 均 存 储 在 预定 义 的 表 中 ， 并 在 必要 的 时 候 能 被 检 
索 。 例 如 ， 在 HBase 中 ， 用 户 可 以 通过 加 载 协 处 理 占 来 进行 检索 ， 详 情 
见 4.4.2 广 。 用 户 设置 键 与 值 时 有 多 种 选择 ， 如 String 或 byte 数组 ， 内 
部 数据 使 用 ImmutableBytesWritable 类 型 存储 ， 目 的 是 为 了 能 够 序 
列 化 〈 见 5.1.1 节 中 “Writable 和 无 参数 的 构造 函数 ?部 分 ) 。 


5.1.3 JJJ 


在 前 面 的 描述 中 ， 我 们 看 到 了 如 何 通 过 HTableDescriptor 类 为 一 
张 表 增加 列 族 ， 与 此 类 似 ， 这 里 提供 了 一 个 专门 的 Java 类 来 实现 对 每 个 
er 在 其 他 编程 语言 中 ， 用 户 也 能 够 发 现 同样 的 设置 列 族 属性 
aber 
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一 一 ”在 Java 中 ， 这 个 类 的 命名 并 没有 完全 体现 它 的 真正 
含义 ， 更 适合 的 命名 或 许 应 该 是 HColumnFamilyDescriptor 
， 这 个 类 名 能 够 表达 定义 列 族 参数 的 含义 。 





列 族 定 义 了 所 有 列 的 共享 信息 ， 并 且 可 以 通过 客户 端 创建 任意 数量 
的 列 ， 列 常用 的 变量 名 为 column qualifiers 。 定 位 某 一 具体 列 需 要 列 族 
名 与 列 名 合并 在 一 起 ， 以 “:” 分 割 ， 


family:qualifier 


列 族 名 字 必 须 是 可 见 字 符 ， 列 名 可 以 由 任意 二 进 制 字符 组 成 。 前 面 
提 到 的 工具 类 Bytes 提供 了 将 Java 语 言 中 基本 类 型 转化 为 字 市 数组 的 方 
法 。 列 族 名 必须 为 可 见 字 符 是 因为 这 个 名 字 将 会 在 底层 存储 系统 中 使 
用 ， 图 5-2 概 述 了 列 族 映 射 到 存储 系统 的 过 程 。 列 族 名 需要 添加 到 文件 
系统 路 径 名 中 使 用 ， 优 点 是 用 户 可 以 通过 格式 可 读 的 名 称 轻松 访问 文件 
系统 层面 的 列 族 。 


| 上 
一 用 户 需 要 注意 空 列 名 的 使 用 ， 也 可 以 只 使 用 列 族 名 
而 忽略 列 名 ， 用 户 的 体验 是 一 样 的 。 读 写 操作 与 其 他 列 没有 
区 别 ， 但 是 最 好 增加 列 名 来 加 以 区 分 。 











用 户 可 以 不 指定 简单 应 用 的 列 名 ， 只 是 使 用 HBase Shell 
查看 数据 时 看 不 到 有 价值 的 结果 。 从 规范 的 角度 来 讲 ， 用 户 
也 应 该 指定 列 名 ， 或 者 说 从 一 开始 就 指定 列 名 ， 因 为 后 期 无 





法 简单 地 重 命名 空 列 。 





用 户 创建 列 族 时 ， 可 以 通过 不 同 的 构造 函数 实现 所 有 属性 的 设置 。 
Java 类 提供 了 许多 不 同 参数 的 构造 函数 ， 这 些 函 数 便于 用 户 有 和 针对 性 地 
选择 使 用 ， 并 定制 需要 的 参数 。 下 面 是 含 不 同 参数 的 构造 函数 : 





HColumnDescriptor(); 

HColumnDescriptor(String familyName), 

HColumnDescriptor(byte[ ] familyName) ; 

HColumnDescriptor(HColumnDescriptor desc); 

HColumnDescriptor(byte[] familyName,int maxVersions,String compression, 
boolean inMemory,boolean blockCacheEnabled,int timeToLive, 

String bloomFilter) ; 

HColumnDescriptor(byte [] familyName,int maxVersions,String compression, 
boolean inMemory,boolean blockCacheEnabled,int blocksize, 
int timeToLive,String bloomFilter,int scope); 


Region [1...99) 
Column Family 1 Column Family 2 


Region [99...199) 
Column Family 1 Column Family 2 


le 
IMEA 


/hbase/table/region-1-99/colfamX /hbase/table/region-99-199/colfamX 
L] 压缩 文件 E 未 压缩 文件 





图 5-2 ” 列 族 映射 到 独立 的 存储 文件 


第 一 个 构造 函数 用 于 内 部 反 序列 化 。 接 下 来 的 两 个 构造 函数 使 用 了 
String 或 byte[] 〈 字 节 数 组 已 经 在 文中 出 现 多 次 了 ) 。 男 外 一 个 构造 
函数 复制 了 已 存在 的 HColumnDescriptor 对 象 属性 ， 最 后 两 个 则 给 出 
了 所 有 可 用 参数 。 


除了 构造 函数 ， 用 户 还 可 以 通过 getter 与 setter 方 法 设置 参数 。 接 下 
来 将 讨论 相关 细节 。 





每 个 列 族 都 有 名 字 ， 用 户 可 以 通过 HColumnDescriptor 实例 的 以 
下 方法 获取 列 族 名 。 








byte[] getName(); 
String getNameAsString() ; 





FAR AE t,o EE NUE TEP I, 
然后 使 用 API 从 旧 列 族 中 复制 数据 到 新 列 族 。 


用 户 除了 通过 构造 函数 ， 没 有 其 他 重 命名 列 族 的 途径 。 此 外 一 定 要 
EW, JRA Ail ze Hy WE 


SR TRAE DL FES, RAR EL a: ”、“/" 或 ISO 


控制 符 ， 即 字符 不 能 在 \ueeee 到 \uee1F 的 范围 内 或 \uee7F 
到 \u669F 的 范围 内 。 


最 大 版 本 数 


所 有 列 族 都 限定 了 每 个 值 能 够 保留 的 最 大 版 本 数量 。 在 前 面 提 到 的 
扬言 删除 过 程 中 ，HBase 会 移 除 超过 最 大 版 本 数 的 数据 。 下 面 是 该 参数 
的 getter 与 setter 方 法 : 








int getMaxVersions(); 
void setMaxVersions(int maxVersions); 








该 参数 默认 值 是 3， 用 户 也 可 以 设置 为 1， 例 如 ， 在 不 访问 旧 数 据 的 
情况 下 。 
压缩 

HBase 文 持 插 件 式 的 压缩 算法 〈 更 多 细节 参见 11.3 节 ) ， 这 个 功能 
允许 用 户 选择 最 适合 的 压缩 算法 或 不 压缩 数据 存储 在 特定 的 列 
族 中 。 表 5-1 列 出 了 目前 文 持 的 压缩 算法 。 
表 5-1 支持 的 压缩 算法 
































不 压缩 (默认 ) 





使 用 Java 提 供 的 或 本 地 库 提供 的 GZIP 


Lz0 启用 LZO 压 缩 ， 需 要 安装 LZO 的 类 库 








启用 Snappy 压 缩 ， 需 要 独立 安装 








默认 值 是 NONE ， 简 言 之 ， 就 是 创建 不 压缩 直接 存储 的 列 族 。 用 户 
如 果 需 要 Java API 和 列 描述 符 ， 可 能 会 用 以 下 方法 来 修改 相应 的 值 : 





Compression.Algorithm getCompression(); 
Compression.Algorithm getCompressionType() ; 

void setCompressionType(Compression.Algorithm type); 
Compression.Algorithm getCompactionCompression() ; 


Compression.Algorithm getCompactionCompressionType() ; 
void setCompactionCompressionType(Compression.Algorithm type) ; 





注意 ， 压 缩 类 型 不 是 string 而 是 Compression.Algorithm 枚 
举 ， 枚 举 中 的 类 型 与 上 述 表 格 列 出 的 类 型 列表 一 
致 。HColumnDescriptor 的 构造 函数 也 同样 需要 字符 串 的 参数 形式 。 


获取 压缩 信息 有 两 种 方法 ， 一 种 是 一 般 压 缩 设 置 ， 另 一 种 是 合并 压 
缩 设置 。 此 外 ， 每 种 方法 分 别 有 相 应 的 getCompression() 与 
getCompressionType() 或 getCompactionCompression( ) 

与 getCompationCompressionType() ， 这 两 种 方法 返回 同一 类 型 的 
值 ， 都 可 以 用 于 检查 当前 压缩 算法 的 类 型 。 ® 


更 多 相关 信息 在 11.3 节 中 有 详细 介绍 。 
块 大 小 

在 HBase 中 ， 所 有 的 存储 文件 都 被 划分 成 了 若干 个 小 存储 块 ， 这 些 
小 存储 块 在 get 或 scan 操作 时 会 加 载 到 内 存 中 ， 它 们 类 似 于 RDBMS 中 


的 存储 单元 页 。 这 个 参数 的 默认 大 小 是 64KB， 并 通过 以 下 方法 设置 和 
获取 : 

















synchronized int getBlocksize(); 
void setBlocksize(int s); 





这 个 参数 用 于 指定 HBase 在 一 次 读 取 过 程 中 顺序 读 取 多 少数 据 到 内 
存 绥 冲 区 ， 更 多 细节 见 11.8 节 。 
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注意 ， 这 里 有 一 个 重要 的 不 同 点 ， 列 族 的 块 ， 或 者 
说 HFile 的 块 不 同 于 HDFS 层 面 的 块 。HDFS 层 面 提 到 的 块 是 
用 于 拆 分 大 文件 以 提供 分 布 式 存 储 ， 且 便于 MapReduce 框 架 
进行 并 行 计算 的 存储 单元 一 一 默认 是 64 MB。HBase 中 的 
HFile 块 大 小 默认 是 64 KB， 是 HDFS 中 块 大 小 的 1024 分 之 
一 ， 主 要 用 于 高 效 加 载 和 缓存 数据 ， 并 不 依赖 于 HDFS 的 块 大 
小 ， 并 且 只 用 于 HBase 内 部 。 更 多 内 容 见 8.2 节 ， 其 中 图 8-3 展 
示 了 两 者 之 间 的 不 同 。 








缓存 块 


HBase 顺 序 地 该 取 一 个 数据 块 到 内 存 缓存 中 ， 其 读 取 相 邻 的 数据 时 
就 可 以 在 内 存 中 读 取 而 不 需要 从 磁盘 中 再 次 读 取 ， 有 效 地 减少 了 磁盘 
IO 的 次 数 ， 提 高 了 IO 效率 。 这 个 参数 默认 为 true ， 这 意味 着 每 次 读 取 
的 块 部 会 缓存 到 内 存 中 。 但 是 ， 如 果 用 户 要 顺序 读 取 共 个 特定 列 族 ， 最 
好 将 这 个 属性 设置 为 false ， 从 而 禁止 其 使 用 块 缓存 。 以 下 是 可 以 改变 


该 标识 的 API: 





boolean isBlockCacheEnabled(); 
void setBlockCacheEnabled(boolean blockCacheEnabled) ; 





IBA HABE Bey DAZ nl ERE FEIN EAD, BG, scan 的 过 程 涉及 众 
多 参数 ， 这 些 参数 最 终 都 可 能 影响 到 缓存 。 这 些 参 数 在 全 表 扫 描 时 非常 
有 用 ， 它 们 能 够 减少 在 全 表 扫 描 过 程 中 缓存 的 大 量 流 失 。 更 多 有 关 信 息 

















见 2.6 节 。 
生存 期 TTL 


HBase 个 仪 文 持 断 言 删 除 每 个 值 能 保存 的 版 本 数 ， 也 文 持 处 理 版 本 
数据 保存 时 间 。 生 存 期 CTL) 设置 了 一 个 基于 时 间 戳 的 临界 值 ， 内 部 
的 管理 会 自动 检查 TTL 值 是 否 达 到 上 限 ， 在 major 合 并 过 程 中 时 间 惟 被 判 
定 为 超过 TITL 的 数据 会 被 删除 。 以 下 是 读 写 TIL 的 getter 与 setter 的 API。 








int getTimeToLive() ; 
void setTimeToLive(int timeToLive) ; 





TIL 参 数 的 单位 是 秒 ， 默 认 值 是 Integer.MAX_ VALUE ， 即 2 147 
483 647 秒 。 使 用 TTL 默 认 值 的 数据 可 以 理解 为 永久 保留 ， 即 生产 过 程 中 
产生 的 任意 正 数 都 永远 小 于 当前 默认 值 。 


在 内 存 中 
我 们 提 到 了 缓存 块 和 怎样 使 用 缓存 块 来 提高 连续 访问 的 效率 。 这 里 


还 有 一 个 在 内 存 中 (in-memory) 标志 ， 默 认 值 为 false ， 以 下 方法 可 
以 修改 此 属性 。 


boolean isInMemory() ; 
void setInMemory(boolean inMemory) ; 





将 这 个 参数 设置 为 true 并 不 意味 着 将 整个 列 族 的 所 有 存储 块 都 加 
载 到 内 存 中 ， 也 不 意味 着 它们 会 被 长 期 保存 在 那儿 ， 而 是 一 种 承 话 ， 或 
者 说 是 高 优先 级 。 在 正和 的 数据 读 取 过 程 中 ， 块 数据 被 加 载 到 绥 存 区 中 
ed 
这 部 分 数据 。 


这 个 参数 通 第 适合 数据 量 较 小 的 列 族 ， 例 如 ， 保 存 登 录 账号 和 密码 
的 用 户 表 ， 将 这 个 参数 设置 为 true 有 利于 提升 这 个 环节 的 处 理 速度 。 





布 隆 过 滤器 


布 隆 过 滤器 © 是 HBase 系 统 中 的 高 级 功能 ， 它 能 够 减少 特定 访问 模 
式 下 的 查询 时 间 《 细 节 见 9.5T) 。 但 是 ， 由 于 这 种 模式 增加 了 内 存 和 
存储 的 负担 ， 这 个 模式 被 默认 为 天 闭 状 态 。 表 5-2 展 示 了 布 隆 过 滤器 的 


类 型 。 


表 5-2 支持 的 布 隆 过 滤器 类 型 














由 于 列 的 数量 远 多 于 行 的 数量 (除非 每 行 只 有 一 列 ) ， 使 用 最 后 一 
个 选项 RONCOL 会 占用 大 量 的 空间 。 与 仅仅 只 有 行 的 模式 相 比 ， 行 / 列 组 
合 形式 的 粒度 无 疑 更 细 。 以 下 API 可 以 设置 布 隆 过 滤器 。 


StoreFile.BloomType getBloomFilterType(); 
void setBloomFilterType(StoreFile.BloomType bt); 





虽然 这 两 个 方法 提供 了 StoreFile.BloomType 类 型 ， 但 列 族 描 述 
符 也 可 以 直接 使 用 字符 串 进行 描述 ， 所 以 参数 类 型 不 是 关键 因素 ， 例 
如 ， 用 户 可 以 使 用 “row ”。9.5 节 有 详细 的 相关 信息 ， 从 中 可 以 了 解 怎 样 
使 用 才能 有 最 佳 效 果 。 


复制 范围 


HBase 的 另 一 个 高 级 功能 是 复制 Creplication) 。 它 提供 了 路 集群 
同步 的 功能 ， 本 地 集群 的 数据 更 新 可 以 及 时 同步 到 其 他 集群 。 复 制 范 围 





(replication scope) 的 参数 默认 为 0， 意 味 着 这 个 功能 默认 处 于 关闭 状 
态 。 以 下 方法 可 以 改变 其 参数 。 


int getScope(); 
void setScope(int scope); 





另 一 个 可 设置 的 值 是 1， 这 个 参数 可 以 开局 本 地 集群 癌 远 程 集群 实 
时 同步 的 功能 。 将 来 这 个 参数 有 可 能 文 持 其 他 可 用 值 。 表 5-3 列 出 了 目 
前 已 文 持 的 值 。 








表 5-3 支持 的 复制 范围 








， 即 关闭 实时 同步 (默认 ) 


= TE 


更 多 相关 信息 可 在 8.8 节 中 进行 查阅 。 
最 后 ，Java 类 还 提供 了 检查 列 族 是 否 存在 的 帮助 方法 。 








static byte[] isLegalFamilyName(byte[] b); 








用 户 在 程序 中 可 以 通过 以 上 方法 验证 列 族 名 是 否 合 法 。 这 个 方法 并 
me a A 
IllegalArgumentException 异常 ， 否 则 会 将 输入 直接 返 这 个 方 





法 会 在 构造 函数 中 调用 ， 不 需要 用 户 提 前 特殊 调用 。 


5.2 HBaseAdmin 


客户 端 提供 了 API 的 模式 来 管理 集群 ， 与 RDBMS 中 的 DDL 相 比 一 一 
客户 端 提 供 的 具有 管理 功能 的 API 更 像 是 DML 。 


HBaseAdmin 提供 了 建 表 、 创 建 列 族 、 检 查 表 是 否 存 在 、 修 改 表 结 
构 和 列 族 结构 和 删除 表 等 功能 。 下 面 我 们 对 这 些 功能 按 操作 关联 性 分 组 
进行 介绍 。 
5.2.1 基本 操作 


使 用 管理 的 API 需 要 首先 实例 化 HBaseAdmin 类 ， 构 造 函数 如 下 : 





HBaseAdmin(Configuration conf) 
throws MasterNotRunningException,ZooKeeperConnectionException 








Epi 
一 本 节 论 述 中 忽略 了 一 点 ， 管 理 功能 API 中 大 多 数 方 
法 都 抛 出 IOException (或 继承 自 它 的 异常 )， 或 者 

是 InterruptedException 。 前 者 是 客户 端 与 服务 器 端的 通 
言 异 常 ， 后 者 是 执行 过 程 中 的 干扰 异常 ， 例 如 ，region 服 务 右 
的 执行 命令 在 完成 前 被 停止 所 引起 的 问题 。 














己 有 的 配置 实例 提供 了 足够 的 配置 信息 ， 所 以 当前 的 API 可 以 通过 
使 用 ZooKeeper 的 相关 配置 信息 得 找 集群 ， 类 似 于 普通 客户 端 API 的 使 用 
方法 。 具 有 管理 功能 的 API 实 例 应 该 在 使 用 后 进行 销毁 ， 换 言 之 ， 这 个 
实例 不 应 该 长 期 保留 。 
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" HBaseAdmin 实例 的 生命 周期 不 宜 太 长 ， 例 如 ， 在 
master 故 障 恢复 的 过 程 中 ， 它 是 短暂 有 效 的 。 








这 个 类 实现 了 Abortable 接口 ， 并 实现 了 以 下 方法 : 


void abort(String why,Throwable e) 





以 上 方法 被 框架 隐 式 调用 ， 例 如 ， 当 发 生 致命 连接 错误 或 关闭 集群 
时 。 用 户 不 能 直接 调用 这 个 方法 ， 但 古 在 紧急 的 情况 下 ， 例 如 需要 完整 
的 天 机 或 重 局 时 ， 系 统 会 调用 该 方法 。 


以 下 方法 可 以 获得 master 的 远程 对 象 : 


HMasterInterface getMaster() 
throws MasterNotRunningException, ZooKeeperConnectionException 





上 面 的 方法 会 返回 HMasterInterface 接口 的 RPC 代 理 实 例 ， 人 允许 
用 户 直 接 通 过 这 个 实例 访问 master 服 务 器 。 不 过 这 个 方法 不 是 必须 
的 ，HBaseAdmin 内 置 了 master 所 有 RPC 接 口 代理 的 封装 。 





pele 
«et i 
一 一 ”除非 用 户 确定 自身 的 调用 是 安全 的 ， 否 则 不 要 直接 
调用 getMaster() 来 获取 HMasterInterface 远程 对 





象 。HBaseAdmin 自身 已 经 封装 了 HMasterInterface 远程 
对 象 的 调用 功能 ， 例 如 ， 检 查 输入 是 否 合法 ， 并 转化 成 远程 
异常 返回 ， 或 优化 同步 处 理 为 异步 处 理 以 提升 执行 ”能 力 。 


除了 上 述 接口 ，HBaseAdmin 类 还 提供 了 以 下 基本 接口 。 


boolean isMasterRunning() 








通过 这 个 接口 检查 master 是 否 正 在 运行 。 用 户 也 可 以 通过 客户 端 程 
序 在 实例 化 HBaseAdmin 类 之 前 直接 调用 该 接口 确认 其 可 以 与 master 通 
{fF 


HConnection getConnection() 





返回 连接 实例 。 详 情 见 4.6 节 。 


Configuration getConfiguration() 





访问 创建 HBaseAdmin 实例 时 使 用 到 的 配置 实例 ， 用 户 可 以 通过 修 
改 这 个 实例 中 的 变量 达到 改变 HBaseAdmin API 调 用 时 依赖 的 配置 的 目 
的 。 


close() 


关闭 HBaseAdmin 实例 的 所 有 资源 ， 包 括 与 远程 服务 器 的 连接 。 


5.2.2 RE 


在 介绍 了 基本 操作 后 ， 下 和 面 我 们 介绍 有 关 表 的 一 系列 操作 。 这 些 操 
作 可 以 达到 帮助 表 工 作 的 目的 ， 而 非 实 际 的 内 部 模式 。5.2.3 市 讲解 了 命 
令 行 的 表 模式 操作 信息 。 


在 开始 工作 前 ， 首 先 要 做 的 是 建 表 ， 以 下 API 束 是 建 表 的 相关 方 
2 


void createTable(HTableDescriptor desc) 

void createTable(HTableDescriptor desc,byte[] startKey, 
byte[] endKey,int numRegions) 

void createTable(HTableDescriptor desc,byte[][] splitKeys) 


void createTableAsync(HTableDescriptor desc,byte[][] splitKeys) 





上 面 描述 的 方法 都 使 用 到 了 HTableDescriptor 实例 ， 详 情 见 5.2.2 
节 ， 其 中 提 到 了 建 表 的 要 点 ， 其 中 包括 列 族 的 创建 要 点 。 例 5.1 是 一 个 
简单 的 有 关 建 表 的 例子 。 


例 5.1 使 用 客户 端 API 建 表 


Configuration conf = HBaseConfiguration.create(); 
HBaseAdmin admin = new HBaseAdmin(conf) ;@ 


HTableDescriptor desc = new HTableDescriptor(@e 
Bytes.toBytes("testtable")); 


HColumnDescriptor coldef = new HColumnDescriptor(e 
Bytes.toBytes("colfam1")); 
desc. addFamily(coldef); 


admin.createTable(desc); © 


boolean avail = admin.isTableAvailable(Bytes.toBytes("testtable"));6 
System.out.println ("Table available: " + avail) ; 





Oe EHBaseAdmin 实例 。 

人 创建 表 描 述 符 。 

全 添加 列 族 描述 符 到 表 描 述 符 中 。 

四 调用 建 表 方法 createTable() 。 

四 检查 表 是 否 可 用 。 

另 一 种 高 级 建 表 功 能 是 ， 伴 随 建 表 操作 进行 预 分 区 ， 将 表 在 创建 的 

Se 例 5.2 使 用 了 两 种 预定 义 region 的 建 表 方 

例 5.2 通过 预 分 区 的 方式 建 表 





private static void printTableRegions(String tableName)throws IOException 
{0 
System.out.println("Printing regions of table: " + tableName); 
HTable table = new HTable(Bytes.toBytes(tableName) ) ; 
Pair< byte[][],byte[][]> pair = table.getStartEndKeys();@ 
for(int n = @3n < pair.getFirst().length;n++){ 
byte[] sk = pair.getFirst()[n]; 
byte[] ek = pair.getSecond()[n]; 
System.out.printin("[" +(n + 1)+ "]" + 
" start key: " + 
(sk. length == 8 ? Bytes.toLong(sk): Bytes.toStringBinary(sk))+ © 
",end key: "+ 
(ek. length == 8 ? Bytes.toLong(ek): Bytes.toStringBinary(ek) )); 
} 
} 


public static void main(String[] args)throws IOException, Interrupted Exce 
ption { 

Configuration conf = HBaseConfiguration.create(); 

HBaseAdmin admin = new HBaseAdmin(conf); 


HTableDescriptor desc = new HTableDescriptor( 
Bytes.toBytes("testtable1")); 
HColumnDescriptor coldef = new HColumnDescriptor( 
Bytes.toBytes("colfam1")) ; 
desc.addFamily(coldef); 


admin. createTable(desc, Bytes.toBytes(1L) 


,Bytes .toBytes(166L) ,10); 


© 
printTableRegions("testtable1"); 


byte[][] regions = new byte[][] { © 
Bytes .toBytes ("A"), 
Bytes.toBytes("D"), 
Bytes.toBytes("G"), 
Bytes.toBytes("K"), 
Bytes.toBytes("O"), 
Bytes.toBytes("T") 

}; 

desc.setName(Bytes.toBytes("testtable2")); 

admin. createTable(desc, regions) ;@ 

printTableRegions("testtable2") ; 


} 





@ 打 印 表 中 region 信 息 的 帮助 方法 。 

人 @ 返 回 表 中 所 有 region 的 起 始 行 键 与 终止 行 键 列表 。 

全 打印 这 些 行 键 ， 但 不 包括 空 的 行 键 (起 始 与 终止 〉。 

人 @ 执 行 建 表 命令 ， 同 时 设置 region 边 界 。 

全 创建 表 中 region 的 拆 分 行 键 。 

@ 使 用 新 表 名 和 region 的 已 拆 分 键 值 列表 作为 参数 调用 建 表 命令 。 





以 上 代码 例子 可 以 得 到 如 下 的 输出 : 





Printing regions of table: testtable1 
[1] start key:,end key: 1 

[2] start key: 1,end key: 13 

[3] start key: 13,end key: 25 


[4] start key: 25,end key: 37 

[5] start key: 37,end key: 49 

[6] start key: 49,end key: 61 

[7] start key: 61,end key: 73 

[8] start key: 73,end key: 85 

[9] start key: 85,end key: 100 

[10] start key: 10@,end key: 

Printing regions of table: testtable2 
[1] start key:,end key: A 
[2] start key: A,end key: 
[3] start key: D,end key: 
[4] start key: G,end key: 
[5] start key: K,end key: 
[6] start key: O,end key: 
[7] start key: T,end key: 


AOAD DS 





以 上 例子 使 用 了 HTable 类 中 的 方法 getStartEndKeys() 来 获取 所 
有 region 的 边界 。 第 一 个 region 的 起 始 行 键 与 最 后 一 个 region 的 终止 行 键 





都 是 空 字 节 ， 这 是 HBase 中 默认 的 规则 。 起 始 和 终止 行 键 都 是 已 经 计算 
好 的 ， 或 是 提供 给 用 户 的 拆 分 键 。 需 要 注意 的 是 ， 前 一 个 region 的 终止 
行 键 与 后 一 个 region 的 起 始 行 键 是 串联 起 来 的 一 一 终止 行 键 不 包含 在 前 
一 个 region 中 ， 而 是 作为 起 始 行 键 包 含 在 后 一 个 region 中 。 





createTable(HTableDescriptor desc,byte[ ] 
startKey,byte[] endKey,int numRegions) 方法 能 够 以 特定 数量 拆 
分 特定 起 始 行 键 和 特定 终止 行 键 ， 并 创建 表 。 参 数 中 的 startKey 必须 
小 于 endKey， 并 且 numRegions 需要 大 于 等 于 3， 人 否则 会 抛 出 异常 ， 这 
样 才 能 够 确保 region 有 最 小 的 集合 。 


在 这 个 方法 中 ，region 的 边界 是 通过 终止 行 键 减 去 起 始 行 键 然后 除 
以 给 定 的 region 数 量 计算 得 到 的 。 在 上 面 的 例子 中 ， 用 户 能 够 学 习 到 怎 
样 计 算 合适 的 region 数 量 ， 以 保证 计算 出 的 行 键 可 以 填充 表 。 








createTable(HTableDescriptor desc,byte[][] splitKeys ) 
方法 在 例子 的 第 二 部 分 中 被 使 用 到 ， 换 句 话 说 ， 它 使 用 已 拆 分 行 键 的 集 
il 使 用 了 已 经 拆 分 好 的 region 边 界 列表 ， 因 此 结果 都 是 与 预期 相符 
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“* 上面 提 到 的 两 种 createTable() 方法 实际 上 是 有 联 
系 的 ，createTable(HtableDescriptor desc,byte[] 
startKey,byte[]jendKey ,int numRegions) 方法 使 

用 Bytes.splLit() 方法 计算 region 分 界 ， 然 后 将 计算 得 到 的 
边界 作为 已 拆 分 边界 列表 ， 并 调用 create 
Table(HtableDescriptor desc,byte[][] splitkeys) 
方法 建 表 3 


最 后 ， 还 有 createTableAsync(HTableDescriptor 
desc,byte[][] splitKeys) 方法 ， 这 个 方法 使 用 表 描 述 符 和 预 拆 分 
的 region 边 界 作为 参数 ， 并 进行 异步 建 表 ， 但 执行 过 程 与 createTable( 
) 方 法 殊途同归 。 
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一 人 表 的 大 多 数 管理 功能 都 是 异步 的 ， 这 对 发 送 命令 而 
不 需要 等 待 执行 结果 的 场景 是 非常 有 用 的 。 但 是 ， 也 有 一 些 
操作 必须 等 待 并 获知 操作 执行 成 功 后 ， 才 可 以 继续 执行 其 他 
操作 ， 因 此 ， 表 提供 了 异步 与 同步 两 种 操作 模式 。 





实际 上 ， 同 步 模式 仅仅 是 异步 模式 的 简单 封装 ， 增 加 了 
不 断 检 查 这 个 任务 是 否 已 经 完成 的 循环 操作 。 例 
uu, createTable() 方法 包装 了 createTableAsync( ) 方 
法 ， 循 环 检查 远程 服务 器 的 建 表 操作 是 否 已 经 执行 完成 。 








建 表 后 用 户 通 过 下 面 的 帮助 方法 可 以 获取 所 有 表 的 列表 和 已 创建 表 
的 表 描 述 待 ， 或 检查 该 表 是 否 存 在 : 





boolean tableExists(String tableName) 
boolean tableExists(byte[] tableName) 
HTableDescriptor[] listTables() 


HTableDescriptor getTableDescriptor(byte[] tableName) 








例 5.1 使 用 tableExists() JiEMABRER MRD, IME 
用 listTables() 方法 获取 所 有 已 建 表 的 表 描 述 符 对 象 ， 使 
用 getTableDescriptor() 方法 获取 某 一 个 已 建 表 的 表 摘 述 符 ， 例 5.3 
使 用 了 listTables() 和 getTableDescriptor() ， 并 展示 了 有 具有 管理 
功能 的 API 的 返回 值 。 








例 5.3 ”获取 所 有 已 建 表 的 表 结 构 


HBaseAdmin admin = new HBaseAdmin(conf) ; 


HTableDescriptor[] htds = admin.listTables(); 

for(HTableDescriptor htd : htds){ 
System.out.println(htd) ; 

} 


HTableDescriptor htd1 = admin.getTableDescriptor( 
Bytes .toBytes("testtable1")); 
System.out.println(htd1); 


HTableDescriptor htd2 = admin.getTableDescriptor( 
Bytes .toBytes("testtable10")); 
System.out.println(htd2); 





由 于 打印 了 所 有 表 描 述 符 以 及 表 描 述 符 中 的 信息 ， 因 此 控制 台 的 输 
出 非 第 长 ， 以 下 我 们 市 选 的 部 分 关键 信息 。 





Printing all tables... 
{NAME => 'testtable1',FAMILIES => [{NAME => 'colfam1',BLOOMFILTER => 
"NONE',REPLICATION SCOPE => '@',COMPRESSION => 'NONE',VERSIONS => '3', 


TTL => '2147483647',BLOCKSIZE => '65536',IN MEMORY => 'false',BLOCKCACHE 
=> 'true'},{NAME => 'colfam2',BLOOMFILTER => 'NONE',REPLICATION_ SCOPE 

=> '@',COMPRESSION => 'NONE',VERSIONS => '3',TTL => '2147483647', 
BLOCKSIZE => '65536',IN MEMORY => 'false',BLOCKCACHE => 'true'},{NAME => 
‘colfam3',BLOOMFILTER => 'NONE',REPLICATION SCOPE => '@',COMPRESSION => 
'NONE', VERSIONS => '3',TTL => '2147483647',BLOCKSIZE => '65536', 

IN MEMORY => 'false',BLOCKCACHE => 'true'}]} 


Exception org.apache.hadoop.hbase.TableNotFoundException: testtable10e 


at ListTablesExample.main(ListTablesExample. java) 
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使 用 已 存在 的 表 的 表 名 ， 或 者 对 上 述 的 代码 使 用 try/catch 封装 来 处 理 


这 些 寞 常 。 


描述 过 建 表 的 过 程 后 ， 我 们 要 提 一 下 删除 表 的 操作 ，HBaseAdmin 
中 的 对 应 的 API 如 下 : 


void deleteTable(String tableName) 
void deleteTable(byte[] tableName) 





这 部 分 API 提 供 了 String 与 byte 数组 的 参数 ， 另 外 一 点 需要 注 
一 且 表 被 删除 ， 所 有 的 数据 都 会 被 删除 。 


在 删除 表 之 前 ， 用 户 需 要 确认 这 张 表 是 舍 已 经 被 禁用 (disabled 
) ， 可 通过 如 下 方法 设置 该 参数 : 


elt 


void disableTable(String tableName) 
void disableTable(byte[ ] tableName) 
void disableTableAsync(String tableName) 
void disableTableAsync(byte[] tableName) 





用 户 将 表 设 置 为 禁用 时 ，region 服 务 器 会 先 将 内 存 中 近期 内 还 未 提 
交 的 已 修改 数据 刷 写 到 磁盘 中 ， 然 后 关闭 所 有 的 region， 并 更 新 这 张 表 
的 元 数据 ， 将 所 有 region 标 记 为 下 线 状态 。 

用 户 可 选择 使 用 异步 与 同步 两 种 模式 ， 且 这 两 种 模式 均 文 持 不 同 格 
式 的 表 名 。 


8S" 用 户 将 表 设 置 为 禁用 时 可 能 会 花费 非常 长 的 时 间 ， 
甚至 长 达 几 分 钟 。 这 取决 于 在 服务 器 内 存 中 有 多 少 近期 更 新 
的 数据 还 没有 写 入 磁盘 。 将 一 个 region 下 线 会 先 将 内 存 中 的 数 
据 写 入 到 磁盘 中 ， 如 果 用 户 设置 了 较 大 的 堆 ， 这 将 导致 region 
服务 器 需要 向 磁盘 写 入 数 MB 甚 至 GB 的 数据 。 在 负载 很 高 的 
系统 中 进行 数据 写 入 时 ， 多 个 进程 间 的 竞争 会 使 这 个 操作 的 
执行 时 间 变 长 。 





一 旦 表 被 设置 为 禁用 ， 但 用 户 并 不 想 删除 它 ， 可 以 通过 以 下 方式 重 
新 局 用 该 表 。 


void enableTable(String tableName) 
void enableTable(byte[] tableName) 
void enableTableAsync(String tableName) 


void enableTableAsync(byte[] tableName) 





这 个 操作 在 转移 这 张 表 的 region 到 其 他 可 用 服务 占 时 比较 有 用 。 此 
外 ， 以 下 是 检查 表 的 状态 的 一 组 方法 : 


boolean isTableEnabled(String tableName) 
boolean isTableEnabled(byte[] tableName) 


boolean isTableDisabled(String tableName) 
boolean isTableDisabled(byte[] tableName) 
boolean isTableAvailable(byte[ ] tableName) 
boolean isTableAvailable(String tableName) 





例 5.4 集 合 了 建 表 、 删 表 、 蔡 用 表 以 及 检查 表 状 态 等 操作 。 
例 5.4 共用 、 启 用 和 检查 表 的 状态 





HBaseAdmin admin = new HBaseAdmin(conf) ; 


HTableDescriptor desc = new HTableDescriptor( 
Bytes.toBytes("testtable")); 

HColumnDescriptor coldef = new HColumnDescriptor( 
Bytes.toBytes("colfam1")); 

desc.addFamily(coldef); 

admin. createTable(desc); 


try { 
admin.deleteTable(Bytes.toBytes("testtable") ); 

} catch(IOException e){ 

System.err.println("Error deleting table: 


} 


+ e.getMessage()); 


admin.disableTable(Bytes.toBytes("testtable")); 
boolean isDisabled = admin.isTableDisabled(Bytes.toBytes("testtable")) ; 
System.out.println("Table is disabled: " + isDisabled); 


boolean avail1 = admin.isTableAvailable(Bytes.toBytes("testtable")); 
System.out.println("Table available: " + avail1); 


admin.deleteTable(Bytes.toBytes("testtable")); 


boolean avail2 = admin.isTableAvailable(Bytes.toBytes("testtable")); 
System.out.println( "Table available: " + avail2); 


admin. createTable(desc); 
boolean isEnabled = admin.isTableEnabled(Bytes.toBytes ("testtable")); 
System.out.println("Table is enabled: " + isEnabled); 





控制 台 输出 如 下 《〈 腊 常 打印 缩写 ) : 


Creating table... 

Deleting enabled table... 

Error deleting table: 
org.apache.hadoop.hbase.TableNotDisabledException: testtable 


Disabling table... 

Table is disabled: true 
Table available: true 
Deleting disabled table... 
Table available: false 
Creating table again... 
Table is enabled: true 
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进行 处 理 ， 用 户 可 以 明确 地 禁用 表 并 重 试 删除 表 操作 。 


isTableAvailable() 方法 返回 了 true ， 即 使 表 被 设置 为 禁用 状 
态 时 ， 该 方法 同样 也 会 返回 true 。 换 句 话 说 ， 这 个 方法 只 对 表 进 行 物 
理 检 查 ， 而 不 关心 表 本 里 的 逻辑 状态 ， 因 此 要 获取 这 张 表 的 可 用 状态 需 
要 使 用 isTableEnabled() 和 isTableDisabled() 方法 。 


用 户 建 表 后 ， 如 果 需 要 修改 表 结 构 必 须 删 除 表 结构 然后 重建 表 ， 或 
采用 如 下 方法 改变 表 结 构 : 








void modifyTable(byte[] tableName,HTableDescriptor htd) 








与 前 面 提 到 的 deleteTable() 操作 类 似 ， 用 户 要 先 将 表 设 置 为 蔡 
用 状态 才能 修改 表 结 构 。 例 5.5 展 示 了 如 何 先 建 表 后 修改 表 结 构 。 


例 5.5 ”修改 表 结 构 


byte[] name = Bytes.toBytes("testtable"); 


HBaseAdmin admin = new HBaseAdmin(conf) ; 

HTableDescriptor desc = new HTableDescriptor(name) ; 

HColumnDescriptor coldef1 = new HColumnDescriptor( 
Bytes.toBytes("colfam1")); 

desc. addFamily(coldef1) ; 


admin. createTable(desc);@ 


HTableDescriptor htd1 = admin.getTableDescriptor(name) ;@ 

HColumnDescriptor coldef2 = new HColumnDescriptor( 
Bytes.toBytes("colfam2")) ; 

htd1.addFamily(coldef2) ; 

htd1.setMaxFileSize(1024 * 1024 * 1024L); 


admin.disableTable(name) ; 
admin.modifyTable(name,htd1) 5; 
admin. enableTable(name) ; 


HTableDescriptor htd2 = admin.getTableDescriptor(name) ; 
System.out.println( "Equals: " + htd1.equals(htd2));@ 
System.out.println ("New schema: " + htd2) ; 





@@ 使 用 旧 结 构建 表 。 

台 获 取 表 结构 ， 增 加 列 族 ， 并 修改 最 大 文件 限制 属性 。 
OAH, (EN, Wake. 

@@ 检 查 表 结 构 是 否 己 经 被 修改 成 功 。 

以 下 输出 说 明 用 户 通过 客户 端 代码 修改 表 结 构 和 通过 服务 器 端 查 询 





表 结 构 ， 经 匹配 但 询 到 的 表 结 构 与 客户 问 保 留 的 表 结 构 是 一 致 的 。 





Equals: true 

New schema: {NAME => 'testtable',MAX_FILESIZE => '1073741824',FAMILIES => 
[{NAME => 'colfam1',BLOOMFILTER => 'NONE',REPLICATION_SCOPE => ‘'@', 
COMPRESSION => 'NONE',VERSIONS => '3',TTL => '2147483647' ,BLOCKSIZE => 
"65536',IN_MEMORY => 'false',BLOCKCACHE => ‘'true'},{NAME => 'colfam2', 
BLOOMFILTER => "NONE',REPLICATION SCOPE => '@',COMPRESSION => ‘NONE’, 
VERSIONS => '3',TTL => '2147483647' ,BLOCKSIZE => '65536',IN MEMORY => 
"false',BLOCKCACHE => ‘'true'}]} 


pO 


Val HHTableDescriptor 对 象 的 equals( ) 方法 比较 客户 端 本 地 的 
0 (包括 所 有 列 族 以 及 与 它们 相关 的 
设置 ) 。 





一 ”modifyTable() 方法 只 提供 了 异步 的 操作 模式 ， 没 
有 提供 同步 的 操作 模式 。 如 果 用 户 需 要 确认 修改 是 否 已 经 成 
功 ， 需 要 在 客户 端 代 码 中 显 式 循环 地 调 
FagetTableDescriptor() 方法 获取 元 数据 ， 直 到 结果 与 本 
地 实例 匹配 。 


5.2.3 ”模式 操作 


除了 modifyTable() 方法 ，HBaseAdmin 类 另外 提供 了 几 种 表 结 构 
修改 方法 。 当 然 ， 首 先 要 确保 表 已 经 被 禁 


与 列 相关 操作 的 方法 集合 如 下 : 





addColumn(String tableName,HColumnDescriptor column) 
addColumn(byte[] tableName,HColumnDescriptor column) 
deleteColumn(String tableName,String columnName) 
deleteColumn(byte[] tableName, byte[] columnName) 
modifyColumn(String tableName,HColumnDescriptor descriptor) 


modifyColumn(byte[] tableName,HColumnDescriptor descriptor) 





通过 以 上 方法 ， 用 户 可 以 创建 、 删 除 、 修 改 列 族 。 增 加 或 修改 一 个 
列 族 需 要 准备 一 个 HColumnDescriptor 实例 ， 详 情 见 5.1.3 节 。 使 





用 getTableDescriptor() 方法 可 以 查询 当前 表 结 构 ， 然 后 调 
用 getColumnFamilies() 方法 可 以 查询 到 所 有 已 存在 列 族 的 信息 。 


如 打 用 户 不 采用 上 述 方 法 ， 其 只 能 通过 粗 粒 度 地 提供 常用 格式 的 表 
名 以 及 列 族 名 来 调用 删除 操作 ， 但 是 这 些 调用 都 是 异步 的 ， 结 果 不 可 
控 ， 用 户 要 自己 承担 这 种 风险 。 














使 用 场景 : Hush 








值得 一 提 的 是 ， 表 创建 、 修 改 都 可 以 基于 一 个 外 部 的 
配置 文件 。Hush 模 式 恰好 利用 了 这 个 想法 ， 其 把 表 和 列 的 
描述 定义 在 XML 文件 中 ， 这 个 文件 可 读 并 包含 了 与 当前 表 
结构 的 对 比 。 下 面 的 示例 提供 了 相应 的 核心 代码 。 








private void createOrChangeTable(final TableSchema schema) 
throws IOException { 

HTableDescriptor desc = null; 

if (tableExists(schema.getName(), false) ){ 
desc = getTable(schema.getName(), false); 
LOG.info("Checking table " + desc.getNameAsString() + "...")3 
final HTableDescriptor d = convertSchemaToDescriptor (schema) ; 


final List< HColumnDescriptor> modCols = 
new ArrayList< HColumnDescriptor>() ; 
for(final HColumnDescriptor cd : desc.getFamilies()){ 
final HColumnDescriptor cd2 = d.getFamily(cd.getName()); 
if (cd2 != null && !cd.equals(cd2)){ @ 
modCols.add(cd2); 
} 
} 


final List< HColumnDescriptor> delCols = 

new ArrayList< HColumnDescriptor>(desc.getFamilies()); 
delCols.removeAll(d.getFamilies()); 
final List< HColumnDescriptor> addCols = 

new ArrayList< HColumnDescriptor>(d.getFamilies()); 
addCols.removeAll(desc.getFamilies()); 


if (modCols.size() > © || addCols.size() > © || delcols.size() > 6 || @ 
!hasSameProperties(desc,d)){ 
LOG.info("Disabling table..."); 
hbaseAdmin.disableTable(schema. getName() ) ; 
if (modCols.size() > © || addCols.size() > © || delCols.size() > 6){ 
for(final HColumnDescriptor col : modCols){ 
LOG.info("Found different column -> " + col); 
hbaseAdmin.modifyColumn(schema.getName(),col. GetNameAsString(),e 
col); 
} 
for(final HColumnDescriptor col : addCols){ 
LOG.info("Found new column -> " + col); 
hbaseAdmin. addColumn(schema.getName(),col);@ 
} 
for(final HColumnDescriptor col : delCols){ 
LOG.info("Found removed column -> " + col); 
hbaseAdmin.deleteColumn(schema.getName(),col. GetNameAsString());6 


} else if(!hasSameProperties(desc,d))f{ 
LOG.info("Found different table properties..."); 
hbaseAdmin.modifyTable(Bytes.toBytes(schema.getName()),d)5;@ 
} 
LOG.info("Enabling table..."); 
hbaseAdmin.enableTable(schema. getName) ) ; 
LOG.info("Table enabled"); 
desc = getTable(schema. getName(), false); 
LOG.info("Table changed") ; 

} else { 
LOG.info("No changes detected!"); 


} else { 
desc = convertSchemaToDescriptor(schema) ; 
LOG.info("Creating table " + desc.getNameAsString() + "...")3 


hbaseAdmin. createTable(desc);@ 
LOG.info("Table created"); 





@ 用 HBase 表 结构 的 元 数据 与 XML 定 义 文件 进行 对 


比 ， 用 户 可 以 看 到 两 者 之 间 的 差异 。 











多 检查 列 族 和 表 的 定义 是 否 有 区 别 。 











全 修改 列 族 信息 前 一 定 要 确保 表 已 经 被 禁用 。 
@ 增 加 列 。 
加 删除 列 。 





@ 如 果 发 现 表 结构 不 同 就 修改 表 结 构 。 
@ 如 果 表 不 存在 就 创建 表 。 


5.2.4 ”集群 管理 


HBaseAdmin 类 提供 的 最 后 一 组 操作 是 集群 管理 操作 。 人 允许 用 户 查 
看 集群 当前 的 状态 ， 执 行 表 级 任务 和 管理 region。8.6 节 描述 了 有 关 
region 的 生命 周期 。 


-> 
一 > 以 下 操作 都 是 面向 高 级 用 户 的， 请 谨慎 使 用 。 


static void checkHBaseAvailable (Configuration conf) 
ClusterStatus getClusterStatus() 





文件 配置 中 的 远程 HBase 集 群 进行 通信 。 如 果 失 败 ， 该 方法 会 抛 出 腊 
A 该 方法 并 返回 布尔 型 变量 ， 即 成 功 了 无 返回 值 且 失败 了 
JUHE EE o 


getClusterStatus() 方法 可 以 通过 查询 ClusterStatus 类 的 实 
例 返 回 集 群 信息 ， 这 个 对 象 包含 了 集群 状态 的 详细 信息 。 详 情 见 5.2.5 


二 上- 


A 





void closeRegion(String regionname,String hostAndPort) 
void closeRegion(byte[] regionname,String hostAndPort) 





以 上 方法 可 以 让 已 经 在 region 服 务 器 中 上 线 的 特定 region 下 线 。 任 何 
可 用 表 的 所 有 region 都 应 该 是 在 线 状态 ， 所 以 用 户 不 能 随意 地 下 线 某 个 


region 。 


使 用 这 个 方法 时 ， 用 户 需 要 提供 准确 的 regionname ， 这 个 参数 需 
要 与 元 数据 表 .META. 中 存储 的 一 样 ， 此 外 还 需要 hostAndPort 参数 ， 
如 果 这 个 参数 不 为 空 ， 程 序 逻 辑 就 不 会 再 去 .META. 元 数据 表 中 得 
4RhostAndPort 的 信息 了 。 


这 个 命令 不 经 过 master 节 点 ， 即 客户 端 直接 与 region 服 务 器 通信 并 
发 送 region 下 线 命令 ， 该 命令 对 master 方 点 是 透明 的 。 


void flush(String tableNameOrRegionName ) 
void flush(byte[] tableNameOrRegionName) 





表 中 所 有 的 更 新 在 未 刷 写 到 磁盘 之 前 都 会 先 写 入 region 的 Memstore 
实例 中 。 客 户 端 程序 可 以 在 达到 memstore 刷 写 上 限 (memstore flush 
size) 〈 见 5.1.2 节 ) 之 前 显 式 地 以 同步 模式 调用 当前 方法 ， 以 达到 将 数 
据 刷 写 到 磁盘 的 目的 。 


该 方法 需要 region 名 或 表 名 ， 且 在 该 方法 执行 时 会 目 行 判断 用 户 提 
供 的 名 称 与 已 存在 的 表 是 否 匹配 。 如 果 输 入 的 是 已 存在 的 表 名 ， 就 按照 














表 级 别处 理 ， 如 果 不 存 在 该 表 和 名， 就 按照 region 名 处 理 ， 如 果 既 不 是 表 
名 也 不 是 region 名 ， 就 抛 出 UnknownRegionException 异常 。 


void compact(String tableNameOrRegionName) 
void compact(byte[] tableNameOrRegionName) 








当前 方法 与 前 面 的 方法 类 似 ， 都 需要 将 region 名 和 表 名 作为 参数 ， 
这 个 方法 是 个 异步 方法 ， 因 为 合并 是 个 花费 时 间 比 较 长 的 操作 ， 客 户 站 
没有 必要 一 直 等 待 这 个 操作 完成 。 调 用 这 个 方法 后 ， 这 个 表 或 者 region 
会 加 入 到 这 个 region 所 在 的 region 服 务 右 的 一 个 执行 队列 ， 并 会 在 后 全 完 
RERE, 或 者 是 在 上 线 该 表 region 的 所 有 region 服 务 器 中 执行 (具体 过 程 
见 1.4.3 节 ) 。 








void majorCompact(String tableNameOrRegionName) 
void majorCompact(byte[ ] tableNameOrRegionName) 





以 上 方法 类 似 于 compact() 方法 ， 也 依赖 于 后 台 队 列 操 作 ， 不 过 是 
执行 的 major 合 并 。 提 供 了 表 名 后 ，API 内 部 会 迭代 这 张 表 所 有 的 
region， 并 顺序 调用 region 的 合并 操作 。 


split(String tableNameOrRegionName) 
split(byte[] tableNameOrRegionName) 
split(String tableNameOrRegionName,String splitPoint) 


split(byte[] tableNameOrRegionName, byte[] splitPoint) 





这 个 方法 用 于 拆 分 一 个 region 或 拆 分 整 张 表 ， 如 末 提 供 了 表 名 ，API 
内 部 会 欠 代 这 张 表 的 所 有 region 并 调用 拆 分 命令 。 


值得 注意 的 一 个 参数 是 sp1itPoint ， 如 果 这 个 参数 不 为 空 ， 并 指 
定 了 特定 的 region， 那 么 这 个 region 会 按照 这 个 指定 的 行 键 来 拆 分 。 如 果 
间 定 的 是 表 名 ， 整 张 表 的 region 在 执行 拆 分 前 会 进行 检查 ， 且 包含 这 个 





特定 的 行 键 的 region 会 按照 这 个 特定 的 行 键 进 行 拆 分 。 


如 果 使 用 splitPoint ， 用 户 首 先 要 确保 行 键 是 合法 的 ， 即 它 必须 
在 给 定 的 region 中 ， 并 且 必 须 大 于 region 的 起 始 行 键 ， 因 为 在 一 个 region 
的 起 始 行 键 处 进行 region 拆 分 是 无 效 的 。 如 果 提 供 的 行 键 不 正确 ， 这 个 
行 键 会 被 忽略 ， 并 且 客 户 端 没 有 任何 反 饿 ， 但 部 署 这 个 region 的 region 服 
务 器 会 在 日 志 中 打印 如 下 的 信息 : 





Split row is not inside region key range or is equal to startkey: 
< split 


row> 


void assign(byte[] regionName, boolean force) 
void unassign(byte[] regionName, boolean force) 





客户 端 可 以 通过 上 面 的 方法 来 控制 region 的 上 线 和 下 线 。 第 一 个 方 
法 可 以 提供 上 线 操 作 ， 上 线 操 作 会 基于 master 生 成 的 上 线 计 划 目 动 执 
行 ， 第 二 个 方法 提供 了 region 的 下 线 操作 。 


force 参数 设置 为 true 对 上 面 两 个 方法 的 意义 是 不 一 样 的 : 第 一 
个 方法 assign() 会 强制 在 ZooKeeper 中 标记 这 个 region 为 下 线 状 态 ， 并 
将 这 个 region 转 移 到 一 个 新 的 region 服 务 嚣 中。 用 户 使 用 时 需要 注意 这 个 
region 是 否 已 经 上 线 。 


第 二 个 方法 unassign() 意味 着 无 论 当 前 region 是 否 在 线 都 会 强制 
再 做 一 次 下 线 操作 。 如 果 force 设置 为 false 束 不 会 之 来 任何 影响 。 








void move(byte[] encodedRegionName,byte[] destServerName) 





使 用 move() 方法 可 以 通过 客户 端 控 制 某 个 region 在 哪 台 服 务 器 上 
线 。 用 户 可 以 使 用 此 方法 将 一 个 region 从 当前 region 服 务 器 移动 到 一 个 新 


的 region 服 务 器 。destServerName 参数 可 以 设置 为 nul1 ， 这 样 会 获得 
一 个 随机 的 服务 嚣 地址， 否则 必须 获取 一 个 合法 的 服务 器 地 址 ， 即 一 个 
正在 运行 的 region 服 务 器 进程 。 如 果 这 个 参数 有 误 或 者 这 个 服务 器 当前 
没有 回应 ， 这 个 region 会 在 其 他 服务 器 上 线 。 最 糟糕 的 情况 下 ， 这 次 移 
动 region 的 操作 会 失败 ， 并 让 这 个 region 下 线 。 


boolean balanceSwitch (boolean b) 
boolean balancer() 





第 一 个 方法 可 以 控制 region 的 负载 均衡 算法 是 否 开启 。 如 果 负 载 均 
衡 算 法 已 经 打开 ，balancer() 能 主动 运行 负载 均衡 算法 将 每 台 region 
服务 器 上 线 的 region 进 行 均匀 再 分 配 。11.5 节 解释 了 相应 的 细节 。 





void shutdown() 
void stopMaster() { 
void stopRegionServer (String hostnamePort ) 





这 些 方法 会 分 别 进行 天 闭 集群 、 关 闭 master 进 程 和 关闭 某 台 region 
服务 器 操作 。 一 旦 调用 这 个 方法 ， 被 执行 的 服务 器 会 马上 进入 关闭 状 
态 ， 即 不 存在 延 时 ， 且 是 个 不 可 逆 的 过 程 。 


> 








第 8 蔓 和 第 11 章 描述 了 更 多 更 高 级 、 更 强大 的 功能 。 使 用 时 需要 特 


5.2.5 ”集群 状态 信息 


调用 HBaseAdmin.getClusterStatus() 可 以 查询 
ClusterStatus 实例 ， 这 个 实例 包含 了 master 搜 集 到 的 整个 集群 信息 。 
注意 ， 这 个 类 也 有 setter 方 法 ， 此 方法 允许 用 户 修改 里 面 的 信息 ， 但 通 
(de 的 仅仅 是 本 地 副本 的 变量 ， 除 非 用 户 需要 修改 本 地 副本 
MZ > 量 


表 5-4 列 出 了 ClusterStatus 类 的 所 有 方法 。 





表 5-4 ClusterStatus 提供 信息 概览 





int getServersSize() 


Collection<ServerName> getServers() 


int getDeadServers() 


Collection<ServerName>getDeadServerNames() 


double getAverageLoad() 


byte getVersion() 


String getClusterId() 


当前 活着 的 region 服 务 器 的 数量 ， 此 数量 
不 包括 不 可 用 状态 的 region 服 务 器 





当前 存活 的 region 服 务 器 的 列表 ， 包 括 
region 服 务 器 的 服务 、IP、RPC 端 口 、 启 
动 时 间 惟 等 





= 





处 于 不 可 用 状态 的 region 服 务 器 的 数 
时， 此 数量 不 包括 可 用 状态 的 region 服 务 








当前 处 于 不 可 用 状态 的 region 服 务 器 的 列 
表 ， 包 括 region 服 务 器 的 服务 p、 RPC 端 
口 等 


平均 每 台 region 服 务 器 上 线 了 多 少 
region， 访 方法 类 似 于 getRegionsCount() 








集群 中 region 的 总 数量 








集群 的 请 求 TPS 


返回 当前 集群 的 软件 编译 版 本 


返回 clusterstatus 实例 的 版 本 号 ， 通 过 
序列 化 的 方式 在 RPC 阶 段 传 输 














返回 集群 的 唯一 标识 。 这 个 值 是 集群 第 
一 次 启动 时 通过 UUID 生 成 的 ， 存 在 根 目 
录 下 的 hbase.id 中 





























返回 当前 集群 正在 进行 处 理 的 region 的 事 
Map<String, RegionState> 务 列表 ， 即 移动 操作 、 上 线 操作 和 下 线 
getRegionsInTransition() 操作 。 键 是 编码 后 的 region 名 
¢ FHHRegTonInfo. getEncodeName() 返 
回 ) ， 值 是 Regionstate a 的 实例 


a 详情 见 8.6 节 。 


用 户 通过 查看 集群 状态 可 以 在 较 高 层次 上 看 到 集群 的 整体 情况 。 用 
户 查 看 使 用 getServers() 方法 返回 的 ServerName 实例 能 够 获取 所 有 
eee ae 表 5-5 罗 列 了 所 有 的 可 用 方 
法 。 









































表 5-5 ServerName 提供 信息 概览 




















string 返回 服务 器 的 域名 ， 如 果 域 名 不 可 用 会 直接 返回 IP 地 址 


getHostname() 








String 返回 域名 与 RPC 端 口 的 合并 字符 串 ， 用 “: ”分 隔 ， 例 


getHostAndPort() Yi], <hostname>:<rpc-port> 














long MAA ASAT TE], Fie, He 


getStartcode() HH System. currentTimeMillis() 进行 获取 























String 获取 服务 器 名 ， 服务 器 名 是 chostname> ~ <rpc-port> 和 <start- 
getServerName() code> 的 组 合 


返回 服务 器 端的 RPC 端 口 


通过 提供 HServerLoad 实例 ， 每 台 region 服 务 器 可 以 提供 它们 的 负 
载 信息 。 用 户 调用 ClusterStatus a 方法 可 以 获取 











HServerLoad 实例 。 使 用 上 面 提 到 的 ServerName ， 通 过 
getServers() 方 法 可 以 获取 并 友 代 访问 服务 器 的 信息 ， 而 当前 提 到 的 
HServerLoad 不 仅 提供 了 服务 器 本 有 身 的 信息 ， 还 提供 了 每 台 服 务 器 管 
理 的 region 的 信息 。 表 5-6 列 出 了 所 有 可 用 方法 。 


3 


425-6 HServerLoad 提供 信息 概览 





; 返回 HserverLoad 的 版 本 号 ，RPC 序 列 化 进程 时 会 用 到 
byte getVersion() 这 个 参数 


S 
Hiregion 服 务 吕 上 线 的 tegion 才 


返回 当前 region 服 务 器 这 个 周期 内 的 TPS， 周 期 可 以 通 

int getNumberofRequests() 过 参数 hbase. regionserver.msginterval 来 设 定 。 请 求 数 
会 在 一 个 周期 结束 后 清 零 ， 它 会 统计 所 有 的 API 请 
求 ， 如 get、put、increment、delete 等 









































JVM 最 大 可 使 用 内 存 ， 单 位 为 MB 


当前 region 服 务 器 的 存储 文件 数量 ， 即 包括 这 个 服务 








int getStorefiles() 














器 管理 的 所 








有 region 


当前 region 服 务 器 的 存储 文件 的 总 存储 量 ， 单 位 为 MB 


当前 region 服 务 器 的 存储 文件 的 索引 大 小 ， 单 位 是 MB 


getStorefileIndexSizeInMB() 











int getMemStoreSizeInMB() = 前 region 服 务 器 的 已 用 写 绥 存 的 大 小 ， 包 括 这 个 
region 服 务 器 上 所 有 的 region 














l 返回 当前 region 服 务 器 中 每 个 region 的 负载 情况 ， 以 
Map<byte[] ，RegionLoad> | Map 的 形式 返回 ， 键 是 region 名 ， 值 是 之 前 讨论 过 的 














etRegionsLoad > 
8 8 0) RegionLoad 实例 





最 后 ， 我 们 来 讨论 这 个 专用 类 RegionLoad 。 表 5-7 列 出 了 所 有 可 用 


Huo 


a 


425-7 RegionLoad 提供 信息 概览 




















byte[] getName() j region 名 ， 以 原始 的 二 进 制 byte 数组 格式 返回 





String getNameAsString() 将 二 进 制 region 名 转换 为 字符 串 并 返回 








int getStores() 当前 region 的 列 族 数 量 





int getStorefiles() 当前 region 的 存储 文件 数量 




















int getStorefileSizeMmB() 当前 region 的 存储 文件 占用 空间 ，MB 为 单位 





int getStorefileIndexSizemB() | 当前 region 的 存储 文件 的 索引 信息 的 大 小 ，MB 为 单位 




















int getMemStoreSizeMB() 当前 region 使 用 的 Memstore MWK), 4 


long getRequestsCount() 当前 region 的 本 次 统计 周期 内 的 TPS 


long getReadRequestsCount() 当前 region 的 本 次 统计 周 期 内 的 QPS 





long getWriteRequestsCount() 当前 region 的 本 次 统计 周 期 内 的 WPS 





例 5.6 展 示 了 所 有 可 用 的 getter 方 法 。 
例 5.6 ”获取 集群 状态 





HBaseAdmin admin = new HBaseAdmin(conf) ; 


ClusterStatus status = admin.getClusterStatus();@ 


System.out.println( "Cluster Status: \n-------------- ne 
System.out.println("HBase Version: " + status.getHBaseVersion()); 
System.out.println( "Version: " + status.getVersion()); 
System.out.println("No. Live Servers: " + status.getServersSize()); 
System.out.println("Cluster ID: " + status.getClusterId()); 
System.out.println( "Servers: " + status.getServers()); 
System.out.println("No. Dead Servers: " + status.getDeadServers()); 
System.out.println( "Dead Servers: " + status.getDeadServerNames()); 
System.out.println( "No. Regions: + status.getRegionsCount()); 
System.out.println( "Regions in Transition: " + 
status.getRegionsInTransition()); 
System.out.println("No. Requests: " + status.getRequestsCount()); 
System.out.println("Avg Load: " + status.getAverageLoad()); 


System.out.println("\nServer Info: \n-------------- "ys 

for(ServerName server : status.getServers()){ @ 
System.out.println("Hostname: ”+ server.getHostname()); 
System.out.println( "Host and Port: " + server.getHostAndPort()); 
System.out.println("Server Name: " + server.getServerName()) ; 
System.out.println("RPC Port: " + server.getPort()); 
System.out.println( "Start Code: " + server.getStartcode()); 


HServerLoad load = status.getLoad(server) 56 


System.out.println("\nServer Load: \n-------------- Sys 
System.out.println("Load: " + load.getLoad()); 
System.out.println("Max Heap(MB): " + load.getMaxHeapMB()); 
System.out.println("Memstore Size(MB): " + load.getMemStoreSizeInMB()); 
System.out.println("No. Regions: " + load.getNumberOfRegions()); 
System.out.println("No. Requests: + load. getNumberOfRequests()); 
System.out.println("Storefile Index Size(MB): "+ 

load. getStorefileIndexSizeInMB()) ; 
System.out.println("No. Storefiles: " + load.getStorefiles()); 
System.out.println("Storefile Size(MB): " + load.getStorefileSizeInMB()) ; 
System.out.println( "Used Heap(MB): " + load.getUsedHeapMB()) ; 


System.out.println("\nRegion Load: \n-------------- ae 
for(Map.Entry< byte[],HServerLoad.RegionLoad> entry : @ 


load. getRegionsLoad().entrySet()){ 
System.out.println("Region: " + Bytes.toStringBinary(entry.getKey())); 


HServerLoad.RegionLoad regionLoad = entry.getValue();6 
System.out.println("Name: " 
regionLoad.getName())); 
System.out.println("No. Stores: " + regionLoad.getStores()); 
System.out.println( "No. Storefiles: " + regionLoad.getStorefiles()); 
System.out.println("Storefile Size(MB): 
regionLoad.getStorefileSizeMB()); 
System.out.println("Storefile Index Size(MB): 
regionLoad. getStorefileIndexSizeMmB()); 
System.out.println("Memstore Size(MB): 
regionLoad.getMemStoreSizeMB() ) ; 
System.out.println("No. Requests: " + regionLoad. getRequestsCount()); 
System.out.println("No. Read Requests: " + 
regionLoad. getReadRequestsCount() ) ; 
System.out.println("No. Write Requests: " + 
regionLoad. getWriteRequestsCount() ); 
System.out.println(); 


} 


+ Bytes.toStringBinary ( 


} 





@ 获 取 clusterstatus 实例 以 获得 集群 状态 。 

Dis TANKS a ao 

全 获取 当前 服务 器 负载 信息 。 

@ 迭 代 当 前 服务 器 所 有 region 的 信息 。 

回 获得 当前 region 的 负载 信息 。 

如 果 以 单机 模式 启动 ， 并 用 这 本 书 早期 的 例子 ， 可 以 看 到 如 下 信 





Avg Load: 12.6 
HBase Version: @.91.@-SNAPSHOT 


Version: 2 

No. Servers: [10.0.0.64, 60020, 1304929650573 | 
No. Dead Servers: @ 

Dead Servers: [] 

No. Regions: 12 

No. Requests: @ 


Server Info: 

Hostname: 10.0.0.64 

Host and Port: 10.0.0.64:60020 

Server Name: 10.0.0.64,60020,1304929650573 
RPC Port: 60020 

Start Code: 1304929650573 


Server Load: 

Load: 12 

Max Heap(MB): 987 

Memstore Size(MB): 6 

No. Regions: 12 

No. Requests: @ 

Storefile Index Size(MB): 6 
No. Storefiles: 3 

Storefile Size(MB): 6 

Used Heap(MB): 62 


Region Load: 

Region: -ROOT-,,@ 
Name: -ROOT-,,0 

No. Stores: 1 

No. Storefiles: 1 
Storefile Size(MB): 6 
Storefile Index Size(MB): 6 
Memstore Size(MB): 6 
No. Requests: 52 

No. Read Requests: 51 
No. Write Requests: 1 


Region: .META.,,1 

Name: .META.,,1 

No. Stores: 1 

No. Storefiles: 6 

Storefile Size(MB): 6 
Storefile Index Size(MB): 6 
Memstore Size(MB): 6 


No. Requests: 4764 
No. Read Requests: 4734 
No. Write Requests: 30 


Region: hush, , 1304930393059. 1ae3ea168c42fa9c855051c888ed36d4. 
Name: hush, ,1304930393059.1ae3ea168c42fa9c855051c888ed36d4. 
No. Stores: 1 

No. Storefiles: 6 

Storefile Size(MB): 6 

Storefile Index Size(MB): @ 

Memstore Size(MB): 6 

No. Requests: 20 

No. Read Requests: 14 

No. Write Requests: 6 


Region: ldom, , 1304930390882 .520fc727a3ce79749bcbbad51e138Ff fF. 
Name: ldom, , 1304930390882 .520fc727a3ce79749bcbbad51e138FfFfF. 
No. Stores: 1 

No. Storefiles: 6 

Storefile Size(MB): 6 

Storefile Index Size(MB): 6 

Memstore Size(MB): 6 

No. Requests: 14 

No. Read Requests: 6 

No. Write Requests: 8 


Region: sdom, , 1304930389795 .4a49f5ba47e4466d284cea27629c26cc. 
Name: sdom, , 1304930389795 .4a49f5ba47e4466d284cea27629cC26cc. 
No. Stores: 1 

No. Storefiles: 6 

Storefile Size(MB): 6 

Storefile Index Size(MB): 6 

Memstore Size(MB): 6 

No. Requests: 8 

No. Read Requests: @ 

No. Write Requests: 8 


Region: surl, , 1304930386482. c965c89368951cf97d2339a@5bc4bad5. 
Name: surl, ,1304930386482.c965c89368951cf97d2339a@5bc4bad5. 
No. Stores: 4 

No. Storefiles: 6 

Storefile Size(MB): 6 

Storefile Index Size(MB): 6 

Memstore Size(MB): @ 

No. Requests: 1329 

No. Read Requests: 1226 

No. Write Requests: 103 


Region: testtable,,1304930621191.962abda0515c910ed91f7520e71ba101. 
Name: testtable, ,1304930621191.962abda0515c910ed91f7520e71ba101. 
No. Stores: 2 

No. Storefiles: @ 

Storefile Size(MB): 6 

Storefile Index Size(MB): 6 

Memstore Size(MB): 6 

No. Requests: 29 

No. Read Requests: @ 

No. Write Requests: 29 


Region: testtable, row-030, 1304930621191 .0535bb40b407321d499d65bab9d3b2d7. 
Name: testtable, row-030, 1304930621191. 0535bb40b407321d499d65bab9d3b2d7. 
No. Stores: 2 

No. Storefiles: 2 

Storefile Size(MB): 6 

Storefile Index Size(MB): 6 

Memstore Size(MB): 6 

No. Requests: 6 

No. Read Requests: 6 

No. Write Requests: @ 


Region: testtable, row-060, 1304930621191 . 81b04004d72bd28cc877cb1514dbab35. 
Name: testtable, row-060@, 1304930621191. 81b04004d72bd28cc877cb1514dbab35. 
No. Stores: 2 

No. Storefiles: @ 

Storefile Size(MB): 6 

Storefile Index Size(MB): 6 

Memstore Size(MB): 6 

No. Requests: 41 

No. Read Requests: 6 

No. Write Requests: 41 


Region: url, ,1304930387617 .a39d16967d51b02@bb4dad13a80a1a@2. 
Name: url, ,1304930387617 .a39d16967d51b020bb4dad13a80al1aQ@2. 
No. Stores: 1 

No. Storefiles: @ 

Storefile Size(MB): 6 

Storefile Index Size(MB): 6 

Memstore Size(MB): @ 

No. Requests: 11 

No. Read Requests: 8 

No. Write Requests: 3 


Region: user, , 1304930388702. 60bae27e577a620ae4b59bc 830486233. 
Name: user, , 1304930388702 .6@bae27e577a620ae4b59bc 830486233. 


No. Stores: 1 

No. Storefiles: @ 

Storefile Size(MB): 6 
Storefile Index Size(MB): 6 
Memstore Size(MB): 6 

No. Requests: 11 

No. Read Requests: 9 

No. Write Requests: 2 


Region: user-surl, , 1304930391974. 71b9cecc9c111a5217bd1a81bde60418. 
Name: user-surl, , 1304930391974. 71b9cecc9c111a5217bd1a81bde60418. 
No. Stores: 1 

No. Storefiles: 6 

Storefile Size(MB): 6 

Storefile Index Size(MB): 6 

Memstore Size(MB): 6 

No. Requests: 24 

No. Read Requests: 21 

No. Write Requests: 3 





O 见 维基 百科 中 的 “Database Normalization” C 
http://en.wikipedia.org/wiki/Database_normalization ) 。 





(2) 在 Java 中 Gettersgetter 和 Setterssetter， 可 以 使 一 个 类 的 内 部 变量 变 得 可 
控 ， 情 况 方法 通常 下 方法 以 这 个 变量 的 名 字 加 上 get 和 set 为 前 组 来 命 
名 ， 例 如 ，getName() 和 setName( ) 方法 。 


O 这 是 因为 开源 和 代码 遗留 问题 造成 的 元 余 ， 请 帮忙 清理 并 贡献 到 
HBase 中 。 


O 见 维基 百科 中 的 “Bloom filter 一 节 ”( 
http://en.wikipedia.org/wiki/Bloom_filter ) 。 


第 6 章 HHA Pig 


HBase 面 对 不 同 的 编程 语言 拥有 不 同 的 客户 端 。 本 章 会 简单 地 介绍 
可 用 的 客户 并。 








6.1 REST、Thrift 和 Avro 的 介绍 


访问 HBase 的 均 是 目前 比较 流行 的 编程 语言 和 环境 。 用 户 可 以 直接 
使 用 HBase 客 户 端 API， 或 者 使 用 一 些 能 够 将 请 求 转换 成 API 调 用 的 代 
理 。 这 些 代理 将 原生 Java API 包 装 成 其 他 协议 ， 这 样 客户 端 可 以 使 用 
API 提 供 的 任意 外 部 语言 来 编写 程序 。 通 常 来 说 ， 外 部 API 实 现 了 专门 
基于 Java 的 服务 ， 而 这 种 服务 能 够 在 内 部 使 用 由 HTable 客 户 端 提 供 的 
API。 这 种 方式 简化 了 网 关 服 务 器 的 实现 和 维护 。 


客户 并 与 网 关 之 间 的 协议 是 由 当前 可 用 选择 以 及 远程 客户 端的 需求 
决定 的 。 最 常用 的 就 是 REST (Representational State Transfer， 表 述 性 状 
态 转 移 ) 由 ， 其 基于 现 有 网 络 技术 。 实 际 的 传输 是 典型 的 HTTP 协 议 
它 是 Web 应 用 的 标准 传输 协议 。 由 于 协议 层 负责 传输 可 互 操 作 格式 
的 数据 ， 这 使 得 REST 成 为 异 构 系 统 之 间 传 输 数据 的 理想 选择 。 


REST 自 定义 了 语义 ， 这 样 协 议 就 可 以 被 用 来 以 普通 的 方式 定位 远 
程 服务 的 资源 。 不 改变 REST 的 协议 ，REST 可 以 直接 兼容 现 有 的 技术 ， 
例如 ，Web 服 务 和 代理 。 资 源 作 为 请 求 URI 的 一 部 分 是 唯一 确定 的 ， 这 
定义 了 一 个 新 协议 的 标准 ， 但 这 跟 基于 SOAP 的 服务 完全 相反 。 


REST 与 SOAP 协 议 都 面临 元 长 的 协议 等 级 。 客 户 问 与 服务 器 问 间 的 
通信 协议 是 可 读 的 简单 文本 或 者 基于 XML 的 文本 ， 数 据 在 网 络 传输 前 
进行 透明 压缩 可 以 一 定 程 度 上 缓解 这 个 问题 。 


尤其 在 拥有 大 规模 集群 的 公司 中 ， 巨 额 的 带宽 消费 和 许多 相互 隔离 
的 服务 ， 让 人 觉得 需要 减少 开销 并 实现 自己 的 RPC 层 。Google 就 是 其 中 
之 一 ， 他 们 开发 了 Protocol Buffer 框 架 © 。 由 于 最 初 的 实现 没有 发 布 ， 
Facebook 就 开发 了 一 套 类 似 的 版 本 ， 叫 做 Thrift 9 。 随 后 ，Hadoop 项 目 
创建 者 局 动 了 第 3 个 项 目 ， 叫 做 Apache Avro®, ， 提 供 了 另 一 种 可 选 的 实 
现 。 
































这 些 框架 都 有 类 似 的 特性 集 ， 它 们 能 够 文 持 大 量 的 语言 ， 而 且 或 多 
或 少 能 够 提升 编码 的 效率 。Protocol Buffer 与 Thrift 和 Avro 之 间 最 大 的 不 
和 
RPC 用 。 








HBase 提 供 了 REST、Thrift、Avro 的 辅助 服务 。 它 们 可 以 被 实现 成 
专门 的 网 关 服 务 ， 这 些 服务 可 以 运行 在 专 有 的 或 共享 的 机 器 中 。 因 为 
Thrift 与 Avro 都 有 各 目的 RPC 实 现 ， 所 以 网 关 服 务 仅仅 是 在 它们 的 基础 
上 进行 了 封装 。 至 于 REST，HBase 则 采用 了 自己 的 实现 ， 并 提供 了 访问 
存储 数据 的 途径 。 


re 
a 事实 上 ，REST 服 务 器 支持 Protocol Buffer, Protocol 
Buffer 能 够 利用 HTTP 协 议 的 Accept 首 部 来 发 送 和 接受 被 
Protocol Buffer 编 码 过 的 数据 ， 而 不 用 另外 实现 RPC 服 务 。 详 
情 见 6.2.2 节 。 


























5 图 6-1 展 示 了 远程 客户 端 如 何 使 用 已 提供 的 端点 访问 专门 的 网 关 服 


这 些 服 务 内 部 直接 使 用 基于 HTable 的 客户 端 API 来 访问 表 。 用 户 能 
看 见 它 们 如 何 从 region 服 务 器 的 顶端 开始 处 理 ， 以 及 共享 相同 的 物理 
用 户 可 以 把 它们 部 署 到 专 
Alar -E 0 


另 一 种 方法 是 直接 在 客户 端 节 点 运行 网 关 服 务 ， 例 如 ， 用 户 的 网 页 
服务 使 用 PHP 构 建 HTML 页 面 ， 这 更 有 利于 在 同一 台 物 理 机 中 运行 网 关 
服务 与 Web 服 务 。 这 种 方式 下 ， 客 户 端 与 服务 器 并 的 通信 是 本 地 通信 ， 
因此 网 关 与 HBase 之 间 的 RPC 协 议 是 原生 协议 。 
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和 从 客户 端 连 接 HBase 时 要 格外 小 心地 检查 ， 网 关 服 











务 要 部 署 在 恰当 的 物理 机 上 。 网 关 服 务 的 性 能 会 被 当前 机 器 
的 负载 和 网 络 传输 数据 量 所 影响 : 因此 要 确认 那些 不 等 待 资 
源 的 进程 ， 例 如 ，CPU 时 钟 周期 ， 以 及 网 络 带宽 的 使 用 。 














图 6-1 客户 端 通 过 网 关 服 务 器 进行 连接 








每 个 请 求 使 用 一 个 服务 而 非 建立 一 个 新 连接 的 优势 要 追溯 到 4.5 节 
一 一 用 户 需 要 复 用 连接 来 获得 最 优 性 能 。 和 生存 期 短 的 进程 将 在 建立 连接 
以 及 准备 元 数据 上 花费 更 多 的 时 间 ， 而 非 在 其 实际 操作 上 人 花费 时 间 。 励 
其 是 服务 器 端 缓存 着 region 的 位 置信 息 ， 这 使 得 复 用 非常 重要 ， 和 否则 每 
oa oe a es 三 的 查找 来 获取 它们 
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选择 一 种 网 关 类 型 并 不 是 一 件 简 单 的 任务 ， 这 取决 于 用 户 目 身 的 实 
际 场景 。 如 果 只 有 一 种 选择 ， 自 然 没 有 必要 纠结 使 用 3 个 不 同 的 网 关机 
来 服务 。 在 REST 以 及 更 有 效率 的 Thrift 中 ， 初 始 化 参数 或 者 相似 的 序列 
化 格式 都 表明 在 高 否 吐 量 场景 中 ， 纯 二 进 制 格式 具有 优势 。 从 男 一 方面 

















来 说 ， 如 果 用 户 仅 有 少许 的 请 求 ， 但 古 数据 量 比较 大 ， 那 么 REST 是 比 
较 合适 的 。 大 致 的 场景 分 类 如 下 所 示 。 


REST 场 景 


REST 文 持 现 有 的 基于 Web 的 体系 ， 它 能 够 完美 地 融合 反问 代理 和 
其 他 缓存 技 术 。 并 行 运行 许多 REST 服 务 可 以 分 摊 它 们 之 间 的 负载 。 例 
如 ， 用 户 可 以 在 每 台 拥 有 的 应 用 服务 器 中 运行 REST， 创 建 一 个 单 点 应 
用 到 服务 〈single-app-to-server) 的 关系 。 


Thrift/Avro 场 景 
当 用 户 从 吞 吐 量 的 角度 考虑 需要 的 最 佳 性 能 时 ， 可 以 使 用 严谨 的 二 


进 制 协议 。 用 户 可 以 运行 较 少 的 服务 ， 例 如 ， 在 多 应 用 服务 (many- 
app-to-server ) 的 基数 下 ， 每 个 region 服 务 器 运行 一 个 服务 。 





6.2 HAJ 


第 一 组 客户 端 是 具有 交互 性 Cnteractive) 的 一 组 ， 它 们 按 需 发 送 
客户 端 API 调 用 到 服务 器 端 ， 例 如 ，get、put 和 delete 操 作 。 基 于 用 户 可 
用 户 可 以 使 用 提供 的 网 关 服 务 来 获得 从 应 用 程序 访问 服务 
RI. 








6.2.1 原生 Java 


第 3 章 和 第 4 章 有 关于 原生 Java API 的 详细 描述 。 在 很 多 场景 中 ， 用 
户 可 以 直接 使 用 Htable 并 通过 原生 的 RPC 调 用 与 HBase 服 务 器 进行 交 
ug 而 不 需要 开启 网 关 服 务 。 参 见 提 到 的 章节 来 实现 一 个 原生 Java 客 户 
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6.2.2 REST 


HBase 提 供 了 强大 的 REST 服 务 器 ， 它 能 够 文 持 完 整 的 客户 端 以 及 管 
理 API。 此 外 ， 它 还 提供 了 不 同 的 消 轧 格式 ， 客 户 问 可 以 灵活 选择 用 于 
应 用 程序 与 服务 器 端 之 间 交 互 的 消息 格式 。 


1. 操作 
基于 REST 服 务 的 客户 端 在 能 够 与 HBase 通 信之 前 需要 先 启 动 REST 


网 关 服 务 。 这 个 工作 可 以 由 已 提供 的 脚本 来 完成 。 下 面 的 命令 展示 了 如 
何 获得 命令 行 帮 助 ， 然 后 局 动 一 个 非 守 护 进程 模式 的 REST 服 务 器 : 








$ bin/hbase rest 
usage: bin/hbase rest start [-p < arg>] [-ro] 
-p,--port < arg> Port to bind to [default: 8080] 
-ro, --readonly Respond only to GET HTTP method requests [default: 
false] 


To run the REST server as a daemon,execute bin/hbase-daemon.sh start|stop 
rest [-p < port>] [-ro] 


$ bin/hbase rest start 


AC 


用 户 需 要 按 Ctrl+C 组 合 键 退 出 进程 。 帮 助 信 息 展 示 了 用 户 需 要 通过 
不 同 的 脚本 局 动 后 台 进 程 : 





$ bin/hbase-daemon.sh start rest 


starting rest,logging to /var/lib/hbase/logs/hbase-larsgeorge-rest-< serve 
rname>.out 





7 0 用 户 可 以 在 命令 行 中 运行 curl © 来 检查 它 是 
全 正常 运 


$ curl http://:8080/ 


testtable 


$ curl http://< servername>:8080/version 


rest 0.0.2 [JVM: Apple Inc. 1.6.0 24-19.1-b2-334] [0S: Mac OS X 10.6.7 \ 
x86_64] [Server: jetty/6.1.26] [Jersey: 1.4] 











输入 根 路 径 的 URL， 例 如 ，/ 可 以 返回 当前 可 用 表 的 表 名 列表 ， 在 
这 里 是 testtable 。 使 用 /version 可 以 检索 当前 REST 服 务 器 的 版 
本 ， 以 及 正在 运行 它 的 机 器 的 详细 ”信息 。 


如 果 需 要 停止 REST 服 务 器 ， 可 以 执行 与 启动 类 似 的 命令 ， 但 需要 
将 start 蔡 换 为 stop : 


$ bin/hbase-daemon.sh stop rest 


stopping rest.. 





REST 服 务 器 提供 了 HBase 表 提供 的 所 有 操作 。 


| w "i 

一 人 当前 REST 的 在 线 文档 地 址 是 
http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/rest/packag 
summary.html 。 请 参阅 文档 中 提供 的 操作 ， 并 仔细 阅读 那个 
页 面 的 XML 模 式 ， 它 解释 了 用 户 请 求 信息 时 需要 使 用 的 模 
式 ， 以 及 服务 返回 的 信息 。 











用 户 可 以 根据 自己 的 喜好 启动 任意 数量 的 REST 服 务 ， 并 且 可 以 使 
用 负载 均衡 器 来 路 由 它们 。 因 为 每 台 REST 服 务 都 是 无 状态 的 任何 
2 eee 用 户 可 以 采用 轮 询 或 类 似 的 算法 来 做 负载 
J 。 


最 后 ， 使 用 -p 或 - -port 参数 可 以 指定 REST 服 务 的 监听 端口 ， 默 








认为 8080。 
2. 文 持 的 格式 

通过 使 用 HTTP Content-Type 和 Accept 头 ， 调 用 者 可 以 自由 选择 
发 送 和 接收 信息 的 数据 格式 。 人 例如， 用户 可 以 使 用 类 似 如 下 的 Shell 脚 本 
命令 在 HBase 中 创建 表 且 插入 列 ; 


hbase(main):001:@> create 'testtable', 'colfam1' 


© row(s)in 1.1790 seconds 


hbase(main) :002:@>put 'testtable' ,"\x01\x02\x@3", 'colfam1:col1', 'value1' 


© row(s)in 0.0990 seconds 


hbase(main) :003:@> scan 'testtable' 


ROW COLUMN+CELL 

\x@1\x@2\xe3 column=colfam1:col1, timestamp=1306140523371, value=val 
uel 
1 row(s)in 0.0730 seconds 





插入 一 行使 用 了 二 进 制 的 行 键 6@x61 0x02 0x03 (十 六 进 制 数 )， 
其 中 指定 一 个 列 族 中 的 一 个 列 ， 值 为 valuel 。 


Plain (text/plain) 。 用 户 可 以 在 一 些 操作 中 指定 以 文本 格式 返回 
数据 。 例 如 ， 前 面 提 到 的 /version 操作 : 








$ curl -H "Accept: text/plain" http://< servername>:8080/version 


rest 0.0.2 [JVM: Apple Inc. 1.6.6 24-19.1-b62-334] [0S: Mac OS X 10.6.7 \ 
x86_64] [Server: jetty/6.1.26] [Jersey: 1.4] 





男 一 方面 ， 对 于 比较 复杂 的 返回 值 ， 纯 文本 格式 很 难 达 到 预期 的 结 


果 。 





$ curl -H "Accept: text/plain" \ 


http://< servername>:8080/testtable/%01%02%03/colfam1:col1 


< html> http://< servername>:8080/testtable/%01%02%03/colfam1:col1 


head> 

meta http-equiv="Content-Type" content="text/html;charset=ISO-8859- 1"/> 
title>Error 406 Not Acceptable< /title> 

/head> 

body>< h2>HTTP ERROR 466< /h2> 

p>Problem accessing /testtable/%01%02%03/colfam1:col1. Reason: 

pre> Not Acceptable< /pre>< /p>< hr />< i>< small>Powered by Jetty: 
//< /small> < /i>< br/> 
< br/> 


NRA RA 内 大 从 


< /body> 
< /html> 


TRE AAV SE Bas EAR ase AS Ed IPAS EBC IS AAS SAS EE Pe k id APE] 
SOAS, HP ris BE AE — PP ES FOIA A RBI STA 


一 人 使 用 前 面 提 到 的 已 创建 的 表 ， 行 键 由 长 度 为 3 的 二 
进 制 字 节 数 组 组 成 ， 用 户 通 过 REST 方 式 访问 这 行 数据 就 需要 
依赖 URL 编 码 2 ， 解 析 后 的 数据 为 %61%62%63 。 单 元 格 查询 
的 完整 URL 如 下 : 











http://< servername> 


:8080/testtable/%01%02%03/colfam1:coli 








详细 语法 可 在 在 线 文档 中 查阅 。 


XML (text/xml) 。 默认 的 存储 与 查询 格式 是 XML 。 人 例如， 如果 
没有 指定 Accept 头 ， 用 户 收 到 的 信息 如 下 : 


$ curl http://< servername>:8080/testtable/%01%02%03/colfam1:col1 


< ?Xml version="1.0" encoding="UTF-8" standalone="yes"?> 
< CellSet> 
< Row key="AQID"> 
< Cell timestamp="1306140523371" \ 
column="Y29sZmFtMTpjb2wx" >dmFsdWUx< /Cell> 
< /Row> 
< /CellSet> 





默认 的 数据 返回 格式 是 XML， 列 名 与 值 都 经 过 了 Base64 © 编码 ， 
详细 解释 见 在 线 模式 文档 。 以 下 是 解释 片段 : 





< complexType name="Row"> 
< sequence> 
< element name="key" type="base64Binary">< /element> 
< element name="cell" type="tns:Cell" maxOccurs="unbounded" \ 
minOccurs="1">< /element> 
< /sequence> 
< /complexType> 


< element name="Cell" type="tns:Cell">< /element> 


< complexType name="Cell"> 
< sequence> 
< element name="value" maxOccurs="1" minOccurs="1"> 
< simpleType>< restriction base="base64Binary"> 
< /simpleType> 
< /element> 
< /sequence> 
< attribute name="column" type="base64Binary" /> 


< attribute name="timestamp" type="int" /> 
< /complexType> 





REST 服 务 器 返回 的 值 都 经 过 了 base64Binary 编码 ， 这 些 返 回 值 
都 能 包含 在 键 或 者 值 中 ， 以 二 进 制 数据 形式 进行 安全 传输 。 


a 
一 一 客户 端 向 REST 服 务 发 送 的 数据 也 经 过 了 安全 编码 。 
请 确保 阅读 了 在 线 帮 助 文档 ， 并 且 正 确 地 编码 ， 包 括 网 络 传 
输 内 容 ， 即 实际 的 值 、 列 名 、 行 键 等 。 





我 们 可 以 使 用 base64 命令 在 控制 台 做 一 个 快速 测试 : 





$ echo AQID | base64 -d | hexdump 


0000000 01 02 03 


$ echo Y29sZmFtMTpjb2wx | base64 -d 


colfam1:col1 


$ echo dmFsdWUx | base64 -d 


valueil 


CC ëO 


这 明显 仅 在 命令 行 的 验证 中 有 用 ， 对 于 用 户 的 代码 来 说 ， 用 户 可 以 
使 用 任意 一 个 可 用 的 Base64 编 码 实现 来 解码 返回 值 。 


JSON (application/json) > JSON 是 类 似 于 XML 的 格式 ， 发 送 请 
求 时 在 头 部 设置 JSON 格 式 即 可 : 


$ curl -H "Accept: application/json" \ 


http://< servername>:8080/testtable/%01%02%03/colfam1:col1 


"Row": [{ 
"key": "AQID", 
"Cell": [{ 
"timestamp": 1306140523371, 
"column": "Y29sZmFtMTpjb2wx", 
"$": "dmFsdwux" 
}] 
}] 








K h | 
es 证 果 经 过 重新 格式 化 后 更 容 
易 阅 读 ， 通 常 返 回 结 末 在 控制 台中 独立 显示 的 一 行 ， 例 如 : 


{" Row": [{"key":"AQID","Cell":[{"timestamp":1306140523371, 
"column": \"Y29sZmFtMTpjb2wx","$":"dmFsdWUx"}]}]} 








编码 之 后 的 值 类 似 于 XML， 例 如 ，Base64 可 以 编码 任何 包含 二 进 制 
数据 的 值 。 不 同 之 处 在 于 ， 与 XML 格式 相 比 ，JSON 格 式 不 包含 无 名 字 
的 数据 字段 。 在 XML 格式 中 ， 一 个 单元 格 的 标签 是 Cell，JSON 格 式 指 
定 了 键 / 值 对 ， 因 此 没有 可 用 的 标签 。 由 于 这 个 原因 ，JSON 格 式 中 有 特 
殊 的 字段 “$” (美元 符号 ) ， 美 元 符号 对 应 的 值 束 是 XML 格 式 中 单元 格 
标签 对 应 的 值 。 从 上 面 的 例子 中 ， 用 户 可 以 看 到 正在 使 用 以 下 代码 : 


"$":"dmFsdwux" 








£ 用 户 可 以 获取 美元 符号 对 应 的 字段 值 ， 从 而 得 到 经 过 Base64 编 码 的 


Protocol Buffer (application/x-protobuf) 。 一 个 非常 有 趣 的 REST 
应 用 是 关于 切换 编码 的 。 由 于 Protocol Buffer 并 不 依赖 本 地 RPC 栈 ， 因 此 
HBase REST 服 务 器 提供 了 对 这 种 编码 格式 的 文 持 。 用 户 可 以 详细 查阅 
在 线 文 档 来 了 解 具体 模式 。 


获得 以 Protocol Buffer 编 码 的 返回 结果 需要 匹配 Accept 3k: 





$ curl -H "Accept: application/x-protobuf" \ 


http://< servername>:8080/testtable/%01%02%03/colfam1:col1 | hexdump -C 


00000000 a 24 Ga 63 61 62 63 12 1d 12 Oc 63 6f 6c 66 61 E eds c 
olfa| 

00000010 6d 31 3a 63 6f 6c 3118 eb f6 aa eð 81 26 22 06 |m1:col1 
.&" .| 

00000020 76 61 6c 75 65 31 | value | 





使 用 hexdump 可 以 打印 编码 后 的 二 进 制 格式 信息 ， 不 过 用 户 需要 使 
用 Protocol Buffer 解 码 器 才能 将 其 解析 成 结构 化 数据 。 在 上 面 的 例子 
中 ，ASCII 在 右边 打印 出 示例 行 的 列 名 和 单元 格 的 值 。 


Raw Binary (application/octet-stream) 。 最 后 ， 用 户 可 以 按照 原 
台 形 式 转 存 数 据 ， 同 时 忽略 结构 化 数据 。 通 过 下 面 的 命令 行 ， 只 有 存储 
在 单元 格 内 的 数据 被 返回 。 








$ curl -H "Accept: application/octet-stream" \ 


http://< servername>:8080/testtable/%01%02%03/colfam1:col1 | hexdump -C 


00000000 76 61 6c 75 65 31 |valuel | 








we it 
一 一 根据 格式 要 求 ，REST 服 务 器 可 以 将 结构 化 的 数据 插 
入 自 定 义 的 头 部 。 例 如 ， 按 上 述 设置 之 后 ， 头 部 结构 如 下 








(增加 -D- 到 curl 命令 中 ) : 


HTTP/1.1 266 OK 
Content-Length: 6 
X-Timestamp: 1306140523371 


Content-Type: application/octet-stream 





单元 格 中 的 时 间 戳 已 经 移动 到 头 部 ， 例 如 ，X- 
Timestamp 。 因 为 行 键 和 列 键 是 请 求 的 URI 中 一 部 分 ， 但 它 
们 在 啊 应 的 时 候 不 再 返回 ， 因 此 节省 了 不 必要 的 网 络 传输 。 








3. REST 的 Java 客 户 端 


REST 服 务 器 同样 有 全 面 的 Java 客 户 端 API， 位 于 


org.apache.hadoop.hbase.rest.client 


包 中 。 其 中 的 核心 类 是 RemoteHTable 和 RemoteAdmin 。 例 6.1 展 示 了 
RemoteHTable 类 的 使 用 实例 。 


例 6.1 REST 客 户 端 类 的 使 用 实例 


Cluster cluster = new Cluster(); 
cluster.add("localhost", 8080) ;@ 


Client client = new Client(cluster);@ 
RemoteHTable table = new RemoteHTable(client, "testtable");6 


Get get = new Get(Bytes.toBytes("row-30"));@ 
get.addColumn(Bytes.toBytes("colfam1") ,Bytes.toBytes("col-3")); 
Result result1 = table.get(get); 


System.out.println("Get result1: " + result1); 


Scan scan = new Scan(); 
scan.setStartRow(Bytes.toBytes("row-10") ); 
scan.setStopRow(Bytes.toBytes("row-15")); 
scan.addColumn(Bytes.toBytes("colfam1") ,Bytes.toBytes("col-5")); 
ResultScanner scanner = table.getScanner(scan);6 


for(Result result2 : scanner){ 
System.out.println("Scan row[" + Bytes.toString(result2.getRow() )+ 
"]: " + result2); 





@ 设 置 己 知 的 REST 服 务 器 集群 地 址 列表 。 
四 创建 处 理 HTTP 交 互 的 客户 端 。 


全 创建 RemoteHTable 实例 ， 将 REST 访 问 封 装 到 一 个 熟悉 的 接口 
中 。 


@ 执 行 一 个 get() 操作 ， 如 同 直接 连接 HBase 的 操作 。 
加 扫描 表 ， 然 后 就 像 使 用 原生 Java API 一 样 进行 调用 。 


上 述 的 例子 需要 在 本 机 中 已 经 运行 了 REST 服 务 器 ， 并 监听 了 特 完 
端口 。 如 果 在 其 他 机 器 或 其 他 端口 中 已 经 运行 了 REST 服 务 器 ， 用 户 需 
要 首先 将 服务 地 址 新 增 到 cluster 实例 中 。 


以 下 是 上 述 例子 在 运行 过 程 中 打印 到 控制 合 的 信息 : 





Adding rows to table... 

Get resulti: keyvalues={row-30@/colfam1:col-3/1306157569144/Put/vlen=8} 
row[row-10]: keyvalues={row-10/colfam1:col-5/1306157568822/Put/ vlen= 
row[row-100]: keyvalues={row-100/colfam1:col-5/1306157570225/Put/ vle 
row[row-11]: keyvalues={row-11/colfam1:col-5/1306157568841/Put/ vlen= 


row[row-12]: keyvalues={row-12/colfam1:col-5/1306157568857/Put/ vlen= 


row[row-13]: keyvalues={row-13/colfam1:col-5/1306157568875/Put/ vlen= 


row[row-14]: keyvalues={row-14/colfam1:col-5/1306157568890/Put/ vlen= 





由 于 HBase 古 按照 行 键 的 字典 序 排序 的 ， 因 此 用 户 收 到 的 行 数据 中 
包含 了 预期 的 列 。 


使 用 RemoteHTable 与 一 定数 量 的 REST 服 务 器 进行 通信 是 一 个 非 
常 便捷 的 方式 ， 并 有 旦 能 够 使 用 正常 的 Java 客 户 并 API 类 ， 如 Get 或 Scan 


wa, 
no 
va 


ae + 
ce Py 

一 当前 REST 的 Java 客 户 端 实现 在 内 部 使 用 了 用 于 和 
REST 服 务 器 进行 通信 的 Protocol Buffer 编 码 ， 这 是 最 合适 的 网 


络 传输 协议 ， 因 此 提供 了 较 高 的 带 览 利用 率 。 








6.2.3 Thrift 


Apache Thrift 是 由 C++ 编写 的 框架 ， 但 是 提供 了 器 语 言 的 模式 定义 
文件 ， 包 括 Java、C++、Perl、PHP、Python 和 Ruby 等 。 一 旦 用 户 编 译 了 
一 种 模式 ， 用 户 束 可 以 在 一 种 或 多 种 语言 实现 的 系统 之 间 传 输 消 忆 。 

1. 安装 


用 尸 应 首先 安装 Thrift， 安 装 时 最 好 使 用 适合 当前 操作 系统 的 二 进 
制 安 装 包 ， 如 宁 没 有 就 需要 从 源码 重新 编译 。 


从 网 站 下 载 源码 tar 包 ， 并 解压 到 第 用 目录 : 


$ wget http: //www.apache.org/dist/thrift/0.6.0/thrift-0.6.0.tar.gz 


$ tar -xzvf thrift-@.6.0.tar.gz -C /opt 


$ rm thrift-0.6.0.tar.gz 





首先 ， 用 户 需 要 安装 依赖 的 库 ， 如 Automake . LibTool . Flex 
、Bison 以 及 Boost 库 : 


$ sudo apt-get install build-essential automake libtool flex bison libboost 


之 后 束 可 以 编译 并 安装 Thrift: 


$ cd /opt/thrift-6.6.6 


$ ./configure 


$ sudo make install 





通过 调用 thrift 命令 可 以 验证 安装 是 否 己 经 成 功 ， 例 如 : 





$ thrift -version 


Thrift version 0.6.0 


pO 


一 旦 安装 好 Thrift， 你 就 可 以 编译 模式 文件 ， 并 生成 用 户 指 定语 言 
的 RPC 代 码 。HBase 提 供 了 客户 端 API 与 管理 API 依 赖 的 模式 文件 。 用 户 
可 以 使 用 Thrift 二 进 制 文件 为 自己 的 开发 环境 创建 包 。 


pap 
| we 上 
一 已 提供 的 模式 文件 公开 了 大 量 的 API 功 能 ， 但 是 在 
某 些 领域 还 有 欠缺 。 当 HBase 拥 有 不 同 的 API 时 ， 其 模式 文件 
就 已 经 创建 好 了 ， 当 用 户 需 要 使 用 其 时 ， 可 以 很 容易 地 找 
到 。 








例如 ，API 中 的 不 同 之 处 在 于 ， 正 在 使 用 的 
是 mutateRow( ) 方法 ， 而 新 API 使 用 的 是 get() WE. 


这 个 工作 在 HBASE-1744 ( 
http://issues.apache.org/jira/browse/HBASE-1744 ) 中 已 完成 ， 
并 且 将 Thrift 模 式 文件 转移 到 了 现在 的 API 中 。 一 旦 完成 ， 它 
会 被 增加 到 thrift2 包 中 ， 这 样 用 户 束 能 在 迁移 到 新 模式 时 维护 
并 使 用 现 有 的 旧 模 式 代 码 。 





在 使 用 Thrift 访 问 HBase 之 前 ， 用 户 也 需要 启动 提供 的 
ThriftServer 。 


2. 操作 


局 动 Thrift 服 务 咒 是 通过 已 提供 的 脚本 完成 的 。 用 户 在 使 用 命令 后 
添加 -h 选项 可 以 得 到 帮助 信息 或 者 省 略 所 有 的 选项 : 


$ bin/hbase thrift 


usage: Thrift [-b < arg>] [-c] [-f] [-h] [-hsha | -nonblocking | 
-threadpool ] [-p < arg>] 
-b,--bind < arg> Address to bind the Thrift server to. Not supported by 
the Nonblocking and HsHa server [default: 0.0.0.0] 
-C,--compact Use the compact protocol 
-f,--framed Use framed transport 
-h,--help Print help information 


-hsha Use the THsHaServer. This implies the framed transport. 

-nonblocking Use the TNonblockingServer. This implies the framed 
transport. 

-p,--port < arg> Port to bind to [default: 9090] 

-threadpool Use the TThreadPoolServer. This is the default. 

To start the Thrift server run 'bin/hbase-daemon.sh start thrift’ 

To shutdown the thrift server run 'bin/hbase-daemon.sh stop thrift’ or 

send a kill signal to the thrift server pid 





脚本 提供 了 非常 多 的 选项 。server、protocol 和 transport 类 型 是 被 客 
户 端 强制 使 用 的 ， 不 过 并 非 所 有 的 语言 都 文 持 这 些 选项 。 通 过 命令 行 的 
帮助 信息 可 以 看 到 以 上 选项 的 用 例 ， 例 如 ， 使 用 非 阻塞 Con- 
blocking) 服务 口 来 啊 应 框架 传输 (framed transport) o 


用 户 可 以 使 用 默认 参数 提供 的 非 守护 模式 月 动 Thrift 服务 : 


$ bin/hbase thrift start 





用 户 可 以 使 用 Ctrl+C 组 合 键 退出 进程 。 帮 助 信息 提供 了 如 何 通过 后 


台 进 程 启动 Thrift 服 务 : 


$ bin/hbase-daemon.sh start thrift 


starting thrift, logging to /var/lib/hbase/logs/hbase-larsgeorge-thrift- 
<servername 





可 


使 用 如 下 命令 可 以 停止 Thrift 服 务 ， 作 为 守护 进程 运行 ， 包 含 相 
的 脚本 ， 仅 仅 只 需 把 start 换 成 stop ; : 


$ bin/hbase-daemon.sh stop thrift 


stopping thrift.. 





Thrift 服 务 提供 了 所 有 HTable 可 以 提供 的 操作 。 


as + 
| EP 

有 关 Thrift 服 务 的 文档 在 
http://wiki.apache.org/hadoop/Hbase/ThriftApi 中 。 用 户 可 以 在 
文档 中 碍 阅 所 有 相关 操作 ， 也 可 以 通过 阅读 模式 定义 文件 





$HBASE_HOME/src/main/resources/org/apache/hadoop/hbase/thrift/H 
来 确认 提供 的 所 有 可 用 操作 。 


用 户 可 以 启动 多 台 Thrift 服 务 器 ， 并 可 以 通过 负载 均衡 算法 来 均 捧 
客户 端 请 求 ， 每 台 Thrift 服 务 喜 都 是 无 状态 的 ， 例 如 ， 有 用户 可 以 采用 轮 
询 或 类 似 的 算法 来 分 挫 负 载 。 


最 后 -p 或 --port 参数 可 以 绑 定 服务 器 监听 端口 ， 默 认 端 口 为 
9090. 


3. 不 例 : PHP 


HBase 不 仅 需要 Thrift 模 式 文 件 ， 而 且 还 需要 多 编程 语言 的 客户 端 代 
人 码 。 下 面 我 们 使 用 PHP 实 现 来 演示 所 需 的 步骤 。 


Bess 
a 
一 用 户 首先 需要 按照 服务 器 文档 的 步骤 启动 Web 服 务 
的 PHP 支 持 。 











第 一 步 ， 复 制 模 式 文件 并 编译 成 必 备 的 PHP 源 代码 。 





$ cp -r $HBASE HOME/src/main/resources/org/apache/hadoop/hbase/thrift ~/t 
hrift_src 


$ cd thrift_src/ 


$ thrift -gen php Hbase.thrift 








以 上 thrift 命令 执行 不 能 有 任何 错误 ， 最 后 在 thrift_src 目录 中 能 
够 找到 名 字 为 gen-php 的 目录 ， 其 中 包含 了 两 个 自动 生成 的 并 能 够 访问 
HBase 的 PHP 文 件 。 


$ ls -1 gen-php/Hbase/ 


total 616 
-rw-r--r-- 1 larsgeorge staff 285433 May 24 10:08 Hbase.php 
-rw-r--r-- 1 larsgeorge staff 27426 May 24 10:08 Hbase_types.php 





这 些 上 自动 生成 文件 依赖 于 Thrift 提 供 的 PHP 文 持 库 ， 用 户 需 要 把 这 些 
上 自动 生成 文件 复制 到 Web 服 务 器 的 文档 根 目 录 (document root) 





$ cd /opt/thrift-6.6.6 


$ sudo cp lib/php/src $DOCUMENT_ROOT/thrift 


$ sudo mkdir $DOCUMENT_ROOT/thrift/packages 


$ sudo cp -r ~/thrift_src/gen-php/Hbase $DOCUMENT_ROOT/thrift/packages/ 








目 动 生成 的 PHP 文 件 复制 到 了 子 目 录 packages 中 ， 类 似 于 前 面 提 到 





的 Thrift 库 ， 如 果 该 目录 不 存在 就 必须 创建 该 目录 。 


oas: 
a) 
一 上 述 $DOCUMENT _ROOT 目录 可 能 会 在 warwww F, 
例如 ， 在 Linux 系 统 部 署 Apache 服 务 的 目录 中 ， 或 Apple Mac 
OS 10.6H'J/Library/WebServer/ Documents/ 目录 中 。 有 具体 可 检 


碍 Web 服 务 的 配置 。 





HBase 提 供 了 一 个 DemoClient.php 文件 ， 这 个 文件 可 以 通过 自动 生 
a al 同样 ， 这 个 文件 也 会 被 复制 到 与 Web 服 务 相 
同 的 根 目 录 中 : 


$ sudo cp $HBASE HOME/src/examples/thrift/DemoClient.php $DOCUMENT ROOT/ 








用 户 在 使 用 前 需要 编辑 DemoClientphp 文件 ， 并 调整 文件 的 开头 部 
分 ; 


# Change this to match your thrift root 
$GLOBALS[ 'THRIFT_ROOT'] = ‘thrift 


3 


# According to the thrift documentation, compiled PHP thrift libraries shou 


ld 

# reside under the THRIFT_ROOT/packages directory. If these compiled libr 
aries 

# are not present in this directory,move them there from gen-php/. 
require_once($GLOBALS[ 'THRIFT_ROOT'].'/packages/Hbase/Hbase.php' ) ; 


$socket = new TSocket('localhost' ,909@) ; 





通常 编辑 第 一 行 即 可 设置 THRIFT _ROOT 244%, FH -DemoClient.php 
文件 仍 在 默认 的 根 目 录 中 ， 用 户 此 时 可 以 为 Thrift 设 置 变量 ， 即 之 前 已 
经 将 Thrift 源 码 复制 到 了 该 目录 中 。 


上 述 例子 的 最 后 一 行 便 编 码 了 服务 器 地 址 和 端口 ， 如 果 用 户 想 在 一 
个 分 布 式 环境 中 调试 这 个 例子 ， 其 需要 调整 这 一 行 的 参数 。 

当 一 切 都 准备 好 了 ， 用 户 就 可 以 在 浏览 右 中 输入 以 下 地 址 进行 访 
问 : 





http://< webserver-address 


>/DemoClient.php 


浏览 右 页 面 中 显示 的 信息 如 下 : 


scanning tables... 


found: testtable 
creating table: demo_table 
column families in demo_table: 
column: entry:,maxVer: 10 
column: unused: ,maxVer: 3 
Starting scanner... 





类 似 的 客户 端 ， 如 C++、Java、Perl、Python 和 Ruby， 都 需要 按照 
PHP 例 子 中 描述 的 步骤 进行 设置 : 启动 Thrift 服 务 器 ， 编 译 模 式 文件 ， 生 
成 所 需 语 言 的 客户 端 RPC 人 代码， 最 后 启动 客户 端 。 用 户 必 须 将 根据 目标 
语言 生成 的 RPC 代 码 部 署 到 客户 端 找到 的 位 置 。 


HBase 目 前 已 经 提供 了 用 于 与 Thrift 服 务 通 信 的 Java 的 RPC 生 成 代 
人 码 ， 用 户 也 可 以 根据 模式 文件 重新 自行 生成 这 部 分 代码 ， 但 为 了 便于 使 
用 它们 已 经 被 集成 了 。 








6.2.4 Avro 

Apache Avro， 类 似 于 Thrift， 提 供 了 针对 多 种 编程 语言 的 模式 定义 
文件 ， 例 如 Java、C++、PHP、Python 和 Ruby 等 。 一 旦 用 户 编译 了 预定 
义 模式 文件 ， 就 可 以 在 噶 构 系 统 中 进行 跨 语 言 通信 。 
1. 安装 


用 户 在 使 用 Avro 之 前 需要 先 安装 它 ， 安 装 时 最 好 使 用 适合 当前 操作 








系统 的 二 进 制 安装 包 ， 如 果 没 有 就 需要 从 源码 中 重新 编译 它 。 

一 旦 安装 好 Avro， 用 户 就 需要 根据 选择 的 编程 语言 编译 模式 预定 义 
文件 以 生成 指定 语言 的 RPC 代 码 。HBase 提 供 了 客户 端 API 以 及 管理 API 
的 模式 文件 ， 用 户 需 要 使 用 Avro 工 具 来 创建 支持 当前 开发 环境 的 封装 。 


当然 ， 用 户 在 使 用 Avro 服 务 器 前 ， 必 须要 先 局 动 已 提供 的 


AvroServer 。 
2. 操作 


用 户 可 以 通过 提供 的 脚本 来 启动 Avro 服务 器 。 用 户 可 以 添加 -h 选 
项 或 者 省 略 全 部 选项 以 获得 命令 行 的 帮助 信息 : 











$ bin/hbase avro 


Usage: java org.apache.hadoop.hbase.avro.AvroServer --help | [--port=PORT] 
start 
Arguments: 


start Start Avro server 

stop Stop Avro server 
Options: 
port Port to listen on. Default: 9090 
help Print this message and exit 
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$ bin/hbase avro start 


AC 


[L E 


用 户 按 下 Ctrl+C 组 合 键 可 以 退出 进程 。HBase 也 提供 了 通过 后 人 台 进 
程 的 形式 启动 Avro 服务 器 的 脚本 : 


$ bin/hbase-daemon.sh start avro 


starting avro, logging to /var/lib/hbase/logs/hbase-larsgeorge-avro-< serve 
rname>.out 





用 户 可 以 使 用 如 下 命令 停止 Avro 服务 器 ， 使 用 的 是 相同 的 脚本 ， 只 
是 把 start 换 成 了 stop : 


$ bin/hbase-daemon.sh stop avro 


stopping avro.. 





Avro 服务 器 提供 了 所 有 HTable 可 以 提供 的 操作 。 


人 

人 | 
_— =e a N » Nia yu) 
> 有 关 Avro 服 务 的 文档 请 访问 
http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/avro/packac 
summary.html 。 用 户 可 以 从 文档 内 碍 阅 所 有 相关 操作 ， 也 可 





以 通过 阅读 模式 定义 文件 $HBASE_HOME/src/main/java/org/ 
apache/hadoop/hbase/avro/hbase.avpr 来 确认 提供 的 所 有 可 用 
操作 。 


用 户 可 以 启动 多 台 Avro 服 务 器 ， 并 可 以 通过 负载 均衡 算法 来 均 摊 客 
户 病 请求， 每 台 Avro 服 务 器 都 是 无 状态 的 ， 例 如 ， 可 以 采用 轮 询 或 类 似 
的 算法 。 

最 后 ，-p 或 --port 参数 可 以 绑 定 服务 器 监听 端口 ， 默 认为 9090。 
6.2.5 ”其 他 客户 端 

HBase 还 提供 了 其 他 知 干 客户 端 库 来 访问 HBase 集 群 。 大 致 上 可 以 
分 为 使 用 JVM 直 接 访问 和 使 用 网 关 服 务 与 HBase 集 群 通 信 两 种 情况 。 以 
下 是 一 些 例子 。 


JRuby 





HBase Shell 是 个 使 用 基于 JVM 语 言 访问 Java API 的 最 佳 例 子 ， 它 的 
源码 非常 全 面 ， 因 此 用 户 可 以 使 用 它 添加 相同 的 功能 到 用 户 自 己 的 
JRuby 代 码 中 。 


HBdql 

HBql] 在 HBase 基 础 上 提供 了 SQL 语法 访问 ， 如 果 要 拓展 新 功能 则 需 
要 HBase 添 加 对 应 功能 ， 详 情 见 HBql 项 目 官方 网 址 http:/www.hbql.com/ 
HBase-DSL 

这 个 项 目 提供 了 特定 的 类 ， 该 类 可 帮助 格式 化 查询 HBase 集 群 。 项 


目 风 格 是 类 似 于 builder 模 式 的 代码 ， 用 户 可 以 快速 组 合 需 要 的 参数 和 选 
项 ， 详 情 见 项 目 官 方 wiki ( https:/github.com/nearinfinity/hbase-dsl/wiki 
Jaa 





JPA/JPO 


例如 ， 用 户 可 以 使 用 DataNucleus Chttp://www.datanucleus.org ) 在 
HBase 之 上 封 效 一 层 JPAMPO。 


PyHBase 


PyHBase H ( https://github.com/hammer/pyhbase/ ) 提供 了 与 Avro 
网 关 服 务 通信 的 HBase 客 户 端 。 


AsyncHBase 


AsyncHBase 提 供 了 完全 异步 、 非 阻塞 、 线 程 安全 的 客户 端 来 访问 
HBase 集 群 。 它 使 用 本 地 RPC 协 议 直接 和 许多 服务 器 直接 通信 ， 详 情 见 
这 个 工程 的 官方 主页 https://github.com/stumbleupon/asynchbas e 。 
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一 人 需要 注意 的 是 ， 在 以 上 提 到 的 工程 中 ， 有 的 已 经 很 
久 没有 更 新 。 很 多 作者 初衷 只 是 满足 自己 的 个 人 需要 才 将 其 
开源 。 用 户 最 好 以 这 些 工程 为 基础 进行 二 次 研发 后 使 用 。 














6.3” 批 处 理 客户 端 


另外 一 种 客户 端的 交互 使 用 场景 是 批量 访问 数据 。 不 同 之 处 是 这 些 
批量 处 理 通 党 是 异步 运行 在 后 台 ， 需 要 扫描 大 量 的 数据 ， 例 如 ， 扫 摘 索 
引 、 基 于 数学 模型 的 机 器 学 习 或 报表 统计 需求 。 

这 些 处 理 案 例 大 多 数 不 是 用 户 直 接 驱 动 ， 而 且 所 需要 的 运行 时 间 非 
党 漫长 ， 因 此 用 户 不 会 特别 关注 单 次 访问 的 延 时 。 大 多 数 处 理 批量 读 写 
HBase 的 框架 是 基于 MapReduce 的 模式 。 











6.3.1 MapReduce 

Hadoop MapReduce 框 架 的 目标 是 处 理 PB 级 的 数据 ， 有 共有 高 可 用 、 
目标 明确 、 编 程 模型 简单 易 用 等 特点 。MapReduce 提 供 了 多 种 以 HBase 
为 数据 源 或 目标 数据 库 执行 的 方法 。 
1. 原生 Java 


关于 基于 MapReduce Java API 的 访问 的 详细 内 容 在 第 7 章 中 讨论 。 








2. Clojure 


HBase-RunnerJii H ( https://github.com/mudphone/hbase-runner/ ) 为 
功 能 性 编程 语 言 Clojure 访 问 Hbase 提 供 了 支持 。 用 户 可 以 直接 使 用 
Clojure 编 写 MapReduce 程 序 来 获取 HBase 表 。 


6.3.2 Hive 


Apache Hive © 项 目 提 供 了 基于 Hadoop 的 数据 仓库 。Hive 最 早 由 
Facebook 开 发 ， 现 在 是 Hadoop 生 态 圈 的 开源 项 目 。 


Hive 提 供 了 类 似 于 SQL 的 处 理 语言 ， 叫 HiveQL， 人 允许 用 户 碍 询 存 储 
在 Hadoop 中 的 半 结 构 化 数据 。 最 终 查 询 会 转化 成 MapReduce 人 作业， 在 本 
地 执行 或 在 分 布 式 的 MapReduce 和 集群 中 执行 。 数 据 在 作业 执行 的 时 候补 
解析 ， 并 且 Hive 提 供 了 一 个 不 仅 可 以 访问 HDFS 的 数据 还 可 以 访问 其 他 
数据 源 的 存储 处 理 (storage handler) 时 层 。 存 储 层 的 数据 获取 对 用 户 


查询 来 说 是 透明 的 。 


Hive 0.6.0 及 之 后 的 版 本 提供 了 对 HBase © 的 支持 。 用 户 可 以 直接 定 
义 将 Hive 表 存储 为 HBase 表 ， 并 按 需 要 映射 列 值 ， 在 需要 的 时 候 行 键 可 
以 作为 独立 的 一 列 。 


HBase 版 本 支持 


此 外 ，Hive 0.7.0 仅 仅 支 持 HBase 6.89.6-SNAPSHOT 版 
本 ， 但 很 快 就 可 以 支持 HBase 的 更 高 版 本 。 言 外 之 意 是 ， 两 
者 之 间 的 版 本 需要 匹配 ， 细 微 的 RPC 变 化 都 可 能 影响 到 通 


AH. o 








当前 唯一 的 办 法 是 用 新 的 HBase JAREZ mH JAR 
包 ， 并 重新 编译 Hive 代 码 。 用 户 既 可 以 更 新 Ivy 设置 中 的 
HBase 版 本 《〈 包 括 Hadoop) ， 然 后 复制 新 的 HBase JARE 
8 $HIVE_HOME/src/build/dist/lib 目录 中 ， 并 重新 编译 
(YMMV) 。 


更 好 的 方式 就 是 设置 Ivy 来 加 载 远程 资源 ， 然 后 正常 编 
译 Hive。 前 先 要 先 从 网 站 中 下 载 Hive 安 装 包 ， 并 解压 到 指 
定 路 径 : 





$ wget http://www.apache.org/dist//hive/hive-0.7.0/hive-0.7.0.tar.gz 


$ tar -xzvf hive-0.7.0.tar.gz -C /opt 





然后 编辑 Ivy 配 置 文件 : 


$ cd /opt/hive-0.7.0/src 


$ vim ivy/libraries.properties 


#hbase.version=0.89.@-SNAPSHOT 
#hbase-test.version=@.89.@-SNAPSHOT 
hbase. version=@.91.@-SNAPSHOT 
hbase-test.version=@.91.@-SNAPSHOT 








用 户 可 以 到 工程 中 执行 ant ， 在 此 之 前 必须 为 即将 编译 
的 Hadoop 版 本 设置 环境 变量 : 


$ export HADOOP_HOME="/< your-path>/hadoop-0.20.2" 


$ ant package 


Buildfile: /opt/hive-@.7.0/src/build.xml 
jar: 
create-dirs: 


compile-ant-tasks: 


package: 
[echo] Deploying Hive jars to /opt/hive-@.7.0/src/build/dist 


BUILD SUCCESSFUL 





编译 过 程 需要 一 段 时 间 ， 因 为 Ivy 需 要 下 载 所 有 依赖 的 
库 ， 下 载 速 度 取 决 于 用 户 的 网 速 。 一 旦 编译 完成 ， 用 户 就 
可 以 开始 使 用 新 版 本 的 HBase 处 理 数据 。 





在 某 些 情况 下 ， 用 户 需 要 编辑 目录 src/hbase- 
handler/src/java/org/apache/hadoop/hive/ 
hbase/ 下 的 所 有 代码 文件 ， 并 使 用 如 下 的 方式 修改 : 


HBaseConfiguration hbaseConf = new HBaseConfiguration(hiveConf) ; 





新 方式 使 用 了 静态 工厂 方法 : 


Configuration hbaseConf = HBaseConfiguration.create(hiveConf); 











安装 完 Hive 之 后 ， 用 户 需要 编辑 配置 文件 使 Hive 能 够 访问 HBase 的 
JAR 文 件 ， 以 及 修改 附 融 的 配置 。 修 改 $HIVE_HFOME/confjhive-env.sh X 
件 ， 要 修改 的 行 如 下 所 示 : 





# Set HADOOP_HOME to point to a specific hadoop install directory 
HADOOP_HOME=/usr/local/hadoop 
HBASE_HOME=/usr/local/hbase 


# Hive Configuration Directory can be controlled by: 
# export HIVE_CONF_DIR= 
export HIVE_CLASSPATH=/etc/hbase/conf 


# Folder containing extra libraries required for hive compilation/executio 
n 

# can be controlled by: 

export HIVE_AUX_JARS_PATH=/usr/local/hbase/hbase-@.91.@-SNAPSHOT. jar 





IR 

一 一 全 用 户 需 要 复制 系统 提供 的 $HIVE_HOME/conf/hive- 
env.sh.template 文件 ， 并 保存 到 相同 的 目录 中 ， 但 是 需要 去 挥 
后 级 .template ， 复 制 完成 后 用 户 可 以 按照 前 面 描述 的 情况 编 
和 辑 该 文件 。 





Hive 安 六 好 后 就 可 以 使 用 新 的 存储 处 理 絮 。 首 先 ， 局 动 Hive 命 令 
行 ， 创 建 一 张 Hive 本 地 表 ， 并 使 用 已 提供 的 示例 文件 插入 数据 : 





$ build/dist/bin/hive 


Hive history file=/tmp/larsgeorge/hive_job_log larsgeorge 201105251455 200 
9910117.txt 
hive> CREATE TABLE pokes(foo INT,bar STRING) 


3 
OK 
Time taken: 3.381 seconds 


hive> LOAD DATA LOCAL INPATH '/opt/hive-@.7.0/examples/files/kv1.txt' 


OVERWRITE INTO TABLE pokes 


Copying data from file:/opt/hive-@.7.0/examples/files/kv1.txt 
Copying file: file:/opt/hive-@.7.0/examples/files/kv1.txt 
Loading data to table default.pokes 

Deleted file: /user/hive/warehouse/pokes 


OK 
Time taken: 0.266 seconds 





这 里 使 用 了 表 pokes ， 表 结构 见 向 导 
http://wiki.apache.org/hadoop/Hive/GettingStarted 里 的 描述 。 然 后 用 户 可 
以 创建 一 张 如 下 的 表 : 


hive> CREATE TABLE hbase table 1(key int,value string) 


STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 


WITH SERDEPROPERTIES("hbase.columns.mapping" = ":key,cf1:val") 


TBLPROPERTIES("hbase.table.name" = "hbase_table_1"); 


OK 
Time taken: 0.144 seconds 





上 述 的 DDL 语 句 描述 了 使 用 TBLPROPERTIES ~ SERDEPROPERTIES 
和 HBase 处 理 器 来 处 理 Hive 的 表 hbase table 1 
。hbase.columns.mapping 参数 提供 了 特殊 的 功能 ， 使 用 “:key ”映射 
行 键 ， 用 户 可 以 把 映射 行 键 的 特殊 列 放 置 在 任意 位 置 。 这 里 我 们 将 其 放 
置 在 "i ， 恰 好 对 应 到 了 Hive 表 中 的 键 这 一 列 以 及 HBase 表 中 行 键 
这 一 列 。 





hbase.table.name 这 个 属性 是 可 选 的 ， 仅 当 用 户 想 在 Hive 和 
HBase 中 使 用 不 同名 字 的 表 名 时 才 需 要 填写 。 在 这 里 ， 它 被 设置 为 相同 
的 名 字 ， 因 此 可 以 被 省 略 。 


接 下 来 要 加 载 先前 填充 过 的 Hive 表 pokes 。 根 据 映射 关系 ， 这 里 会 
ete .foo 的 值 保存 在 行 键 中 ， 将 pokes .bar 的 值 保存 在 cf1:vall 
列 中 : 





hive> INSERT OVERWRITE TABLE hbase table 1 SELECT * FROM pokes; 


Total MapReduce jobs = 1 

Launching Job 1 out of 1 

Number of reduce tasks is set to 6 since there's no reduce operator 
Execution log at: /tmp/larsgeorge/larsgeorge 2011052515202@ de5f67d1- 9411 


-446f -99bb-35621e1b259d.1log 

Job running in-process(local Hadoop) 

2011-05-25 15:20:31,031 null map = 100%,reduce = 0% 
Ended Job = job _ local _6661 

OK 

Time taken: 3.925 seconds 





这 里 启动 了 示例 中 第 一 个 MapReduce 作 业 。 用 户 通过 上 面 的 例子 可 
以 看 到 Hive 在 命令 行 中 打印 了 哪些 使 用 值 。 这 个 作业 复制 内 部 Hive 表 中 
的 数据 ， 并 导入 到 HBase 表 中 。 


一 人 在 某 些 特殊 设置 下 ， 尤 其 是 在 本 地 模式 、 伪 分 布 式 
模式 下 ， 可 能 会 发 生 Hive 作 业 失 败 的 情况 ， 并 且 异 常 信息 很 
隐蔽 。 在 分 析 详 细 信 息 前 需要 使 用 本 地 MapReduce 模 式 运 行 
Hive。 在 Hive CLI 中 输入 : 














hive> SET mapred.job.tracker=local; 





然后 再 执行 一 过 Hive 作 业 。 这 种 工作 模式 已 经 增加 到 了 

Hive 0.7.0 中 ， 但 对 于 用 户 来 说 可 能 并 不 能 直接 使 用 。 如 果 用 

户 想 答 试 使 用 它 ， 这 个 模式 避免 了 使 用 Hadoop MapReduce 框 
架 一 一 当 调 试 Hive 作 业 时 可 以 减少 我 们 的 部 分 担心 。 











下 面 的 使 用 场景 统计 了 表 pokes 和 表 hbase_table_1 的 行 数 (一 
些 CLI 输 出 细节 已 经 被 省 略 〉: 





hive> select count(*)from pokes; 


Total MapReduce jobs = 1 
Launching Job 1 out of 1 
Number of reduce tasks determined at compile time: 1 
In order to change the average load for a reducer(in bytes): 
set hive.exec.reducers.bytes.per.reducer=< number> 
In order to limit the maximum number of reducers: 
set hive.exec.reducers.max=< number> 
In order to set a constant number of reducers: 
set mapred.reduce.tasks=< number> 
Execution log at: /tmp/larsgeorge/larsgeorge 20110525152323 418769e6- 1716 
-\48ee-a@ab- dacd59e55da8.log 
Job running in-process(local Hadoop) 


2011-05-25 15:23:07,058 null map = 100%,reduce = 100% 
Ended Job = job local 686861 


Time taken: 3.627 seconds 


hive> select count(*)from hbase_table_1; 


Time taken: 4.542 seconds 











有 趣 的 是 ， 两 者 之 间 的 统计 结果 有 差异 ， 差 异 超过 100 行 ， 这 意味 
着 以 HBase 为 存储 表 的 数据 较 少 。 原 因 究 竟 是 什么 ? 由 于 HBase 中 行 键 
是 唯一 的 ， 因 此 重复 的 行 键 已 经 相互 覆盖 ， 而 pokes .foo 这 一 列 存 在 着 
相同 的 重复 值 。 这 和 在 原 表 中 使 用 SELECT DISTINCT 是 一 样 的 : 








hive> select count(distinct foo)from pokes; 


Time taken: 3.525 seconds 





上 述 执行 结果 最 终 比 对 正确 ， 这 证 明了 我 们 的 判断 是 正确 的 。 


最 
= 最 后 我 们 删除 这 两 张 表 ， 同 时 也 移 除了 Hive 表 对 应 的 实体 HBase 


hive> drop table pokes; 


OK 
Time taken: 0.741 seconds 


hive> drop table hbase_table 1; 


OK 
Time taken: 3.132 seconds 


hive> exit; 





用 户 也 可 以 将 一 张 Hive 表 与 已 有 HBase 表 关联 ， 或 者 将 多 张 Hive 表 
与 已 有 HBase 表 关联 。 当 HBase 表 中 有 不 同 列 族 时 这 种 方式 比较 有 用 ， 
可 以 起 到 分 离 查 询 的 作用 。 由 于 进行 Scan 操作 时 可 以 只 扫描 需要 的 列 
族 ， 因 此 能 够 显著 提升 查询 性 能 。 用 户 设 置 列 族 可 以 尽 可 能 扫描 最 小 的 
破 盘 文件 ， 而 不 用 扫描 全 部 数据 然后 过 滤 出 相应 数据 。 


使 用 Hive EXTERNAL 关键 字 可 以 映射 已 有 的 表 ， 其 同时 也 被 其 他 地 
方 用 来 获取 未 经 Hive 管 理 的 Hive 表 中 的 数据 ， 这 种 模式 可 以 帮助 实际 存 
储 不 受 Hive 的 控制 : 














hive> CREATE EXTERNAL TABLE hbase_table_2(key int,value string) 


STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 


WITH SERDEPROPERTIES("hbase.columns.mapping" = ":key,cf1:val") 


TBLPROPERTIES("hbase.table.name" = "< existing-table-name 





在 Hive 中 删除 外 部 表 时 是 不 会 删除 实际 数据 的 ， 这 个 过 程 仅仅 删除 了 该 
表 的 元 数据 。 


此 外 ， 用 户 还 有 其 他 选项 可 以 使 HBase 的 列 直 接 映 射 到 Hive 的 列 ， 
或 者 可 以 将 整个 列 族 映射 到 Hive 的 MAP 类 型 。 当 用 户 事先 并 不 知道 具体 
的 表 结 构 时 ， 这 种 方式 非常 有 用 ， 在 Hive 碍 询 中 映射 列 族 ， 并 且 在 查询 
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" 没有 映射 到 Hive 中 的 HBase 列 在 Hive 中 是 访问 不 到 
的 。 

















由 于 存储 层 对 Hive 的 上 层 来 说 是 透明 的 ， 用 户 还 可 以 使 用 Hive 提 供 
HANK Cuser defined function, UDF ) 一 一 用 户 自己 定义 的 函 
数 。 


当前 版 本 中 存在 如 下 缺点 。 
无 自 定 义 序列 化 

HBase 当 前 存储 格式 为 byte[] 数组 ， 因 此 Hive 需 要 将 每 一 列 都 转化 
成 为 String ， 并 从 中 进行 序列 化 。 例 如 ， 在 Hive 中 ，INT 列 被 设置 为 
12， 即 需要 使 用 Bytes .toBytes("12") 这 种 方式 存储 。 
无 版 本 控制 


目前 在 处 理 HBase 的 表 时 ， 没 有 任何 有 关 版 本 细节 的 控制 。Hive 总 
是 返回 最 新 版 本 数据 。 


最 后 ， 用 户 在 使 用 Hive 前 ， 需 要 检查 上 述 功 能 是 否 已 经 添加 。 





6.3.3 Pig 


Apache Pig © 项 目 提供 了 一 个 分 析 海 量 数据 的 平台 。 它 提供 了 自己 
的 查询 语言 ， 叫 做 Pig Latin，Pig 语 法 使 用 了 命令 式 编程 风格 ， 迭 代 式 执 
行 ， 并 最 终 将 输入 转化 为 输出 。Pig 语 言 的 编程 风格 与 Hive 模 拟 SQL 的 实 
现 方式 的 风格 截然 相反 。 


但 Pig Latin 与 HiveQL 相 比 更 适合 有 编程 经 验 的 人 使 用 ,但 本 映 的 结 
构 使 得 Pig 更 适合 并 行 处 理 。 用 户 将 Hadoop 与 MapReduce 框 架 结 合 起 来 
使 用 时 ， 可 以 在 一 个 可 接受 的 时 间 范 围 内 处 理 海量 数据 。 


Pig 0.7.0 版 本 介绍 了 LoadFunc/StoreFunc 类 和 相关 功能 ， 这 个 
功能 使 得 Pig 可 以 读 取 不 同 数据 源 的 数据 ， 而 不 仅仅 是 HDFS 中 的 数据 。 
例如 ， 在 HBaseStorage 类 中 实现 的 HBase 数 据 源 。 


Pig 文 持 HBase 表 的 读 写 ， 用 户 可 以 映射 HBase 表 中 的 列 到 Pig 元 组 
(tuple) ， 并 且 可 以 选择 行 键 作为 第 一 列 读 取 。 写 入 的 时 候 第 一 个 字段 
通常 当做 行 键 写 入 。 


存储 层 也 支持 基本 的 过 小 ， 它 在 行 级 别 上 工作 并 且 提 供 了 比较 操 
作 ， 详 情 见 4.1.1 节 的 “比较 运算 符 ”。 © 








Pig 安 装 





用 户 可 以 根据 选择 的 操作 系统 直接 安装 已 经 编译 好 的 
二 进 制程 序 ， 如 果 没 有 合适 的 安 六 程序 也 可 以 下 载 工程 源 
人 码 并 重新 编译 到 本 地 。 例 如 ， 在 Linux 系 统 中 需要 按照 如 下 
步骤 编译 。 





从 官方 网 站 下 载 源 码 ， 然 后 解压 到 指定 目录 : 





$ wget http://www.apache.org/dist//pig/pig-0.8.1/pig-9.8.1.tar.gz 


$ tar -xzvf pig-0.8.1.tar.gz -C /opt 


$ rm pig-0.8.1.tar.gz 





将 pig 脚本 添加 到 环境 变量 中 ， 将 PIG_HOME 环境 变量 
设置 如 下 : 


$ export PATH=/opt/pig-6.8.1/bin:$PATH 


$ export PIG_HOME=/opt/pig-0.8.1 














最 后 ， 用 户 可 以 通过 以 下 命令 检查 安装 是 人 否 成 功 : 


$ pig -version 


Apache Pig version 0.8.1 
compiled May 27 2011,14:58:51 





用 户 可 以 按照 教程 中 提供 的 代码 和 数据 去 实践 通过 Pig 访 问 HBase。 
在 使 用 Pig 之 前 ， 用 户 要 通过 HBase Shell 创 建 表 : 





hbase(main):001:0> create ‘excite’, 'colfam1' 


启动 Pig Shell 脚 本 ， 巧 妙 地 调用 pig 脚本 Grunt ， 如 果 用 户 想 使 用 本 
地 测试 ， 则 需要 使 用 -x local 命令 : 


$ pig -x local 





本 地 模式 意味 着 Pig 并 不 运行 在 MapReduce 模 式 中 ， 而 是 使 用 
Hadoop 的 一 个 组 件 LocalJobRunner 运行 ， 并 模拟 MapReduce 程 序 将 作 
业 都 运行 在 同一 个 进程 中 。 这 种 模式 有 利于 测试 和 原型 设计 阶段 ， 但 如 
果 数 据 量 较 大 时 ， 这 种 模式 则 不 适合 。 


用 户 可 以 通过 编辑 器 提前 编写 脚本 ， 然 后 通过 pig 脚 本 执行 。 用 户 
也 可 以 在 Pig Shell Pay APig Latin 语 句 。 最 终 ，Pig 语 名 会 转化 成 一 个 或 
多 个 MapReduce 作 业 ， 但 并 非 所 有 的 语句 都 能 触发 执行 ， 因 此 用 户 最 好 
逐 行 定义 这 些 语 句 ， 然 后 调用 DUMP 或 STORE ， 使 执行 能 够 按照 预定 逻 
辑 过 程 执行 。 
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ts, 

一 PigLatin 函 数 区 分 大 小 写 ， 虽 然 通 常 它们 都 是 大 
写 。 用 户 定义 的 名 字 与 字段 就 像 Pig Lation 函 数 一 样 对 大 小 写 
敏感 。 








Pig 教 程 使 用 了 由 Excite 提 供 的 少量 的 数据 集合 用 于 测 试 ， 包含 了 匿 
名 用 户 ID、 时 间 戳 和 用 于 用 户 搜索 的 索引 标题 。 第 一 步 ， 用 户 需 要 将 这 
并 经 过 简单 的 组 合 转化 ， “以 强制 确保 每 个 条 目 








grunt> raw = LOAD 'tutorial/data/excite-small.log'’ \ 


USING PigStorage('\t' )AS(user, time, query) ; 


T = FOREACH raw GENERATE CONCAT(CONCAT(user, '\uQ@000'), time), query; 


grunt> STORE T INTO ‘excite’ USING \ 


org.apache.pig.backend.hadoop.hbase.HBaseStorage('colfam1: query’ ) ; 


2011-05-27 22:55:29,717 [main] INFO org.apache.pig.backend.hadoop. \ 
executionengine.mapReduceLayer.MapReduceLauncher - 100% complete 
2011-05-27 22:55:29,717 [main] INFO org.apache.pig.tools.pigstats. PigSta 
ts \ 

- Detected Local mode. Stats reported below may be incomplete 


2011-05-27 22:55:29,718 [main] INFO org.apache.pig.tools.pigstats. PigSta 
ts \ 
- Script Statistics: 


HadoopVersion PigVersion UserId StartedAt FinishedAt Features 
@.20.20.8.1 larsgeorge 2011-05-27 22:55:22 2011-05-27 22:55:29 UNKNOWN 


Success! 


Job Stats(time in seconds): 
JobId Alias Feature Outputs 
job local 688662 T,raw MAP_ONLY excite, 


Input(s): 
Successfully read records from: "file:///opt/pig-9.8.1/tutorial/data/ exci 
te-small.log" 


Output(s): 
Successfully stored records in: "excite" 


Job DAG: 
Job_ local _ 6662 
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一 一 全 用 户 可 以 使 用 DEFINE 语句 创建 HbaseStorage 类 的 
Java 包 名 的 短 引 用 。 例 如 : 


grunt> DEFINE LoadHBaseUser org.apache.pig.backend.hadoop.hbase.HBaseStora 
ge(\ 

‘data:roles', '-loadKey'); 
grunt> U = LOAD ‘user' USING LoadHBaseUser; 


grunt> DUMP U; 





这 对 复 用 特定 的 功能 函数 比较 有 用 。 


上 述 的 STORE 语句 开启 了 一 个 MapReduce 作 业 ， 该 作业 从 预先 给 出 
的 日 志文 件 中 读 取 数据 并 加 载 到 HBase 表 中 。 上 述 例子 改变 了 组 合 行 键 
之 间 的 关系 一 一 在 前 面 的 STORE 语句 中 指定 了 第 一 列 用 于 存储 行 键 一 一 
行 键 由 用 户 和 时 间 惟 两 列 的 值 组 合 而 成 ， 之 间 由 字 节 0 分 隔 开 。 


处 理 数 据 需 要 另外 的 LOAD 语句 ， 这 次 需要 使 用 HBaseStorage 
DK 
Fos 





grunt> R = LOAD ‘excite’ USING \ 


org.apache.pig.backend.hadoop.hbase.HBaseStorage('colfam1: query’, '-loadKey 
')\ 


AS(key: chararray,query: chararray); 





括号 里 的 参数 定义 了 字段 到 列 的 映射 信息 ， 以 及 其 他 相关 的 额外 参 
数 ， 这 些 参数 定义 了 把 行 键 作为 首 列 载 入 。AS 部 分 显 式 地 定义 了 行 键 
和 colfam1:query 列 在 访问 时 会 被 转化 为 Pig 的 字符 串 类 型 chararray 
。 默 认 它 们 以 bytearray 类 型 返回 ， 这 个 和 它们 存储 在 HBase 表 中 的 方 
式 相同 。 转 换 数据 类 型 是 被 允许 的 ， 例 如 ， 随 后 拆 分 的 行 键 。 


用 户 可 以 通过 转 储 内 容 R 来 测试 先前 语句 的 结果 。 


grunt> DUMP R; 


Success! 


(@02BB5A52580A8ED970916150445,margaret laurence the stone angel) 
(@02BB5A52580A8ED970916150505,margaret laurence the stone angel) 








该 元 组 的 第 一 列 存放 着 行 键 ， 行 键 在 首次 从 文件 复制 到 HBase 的 过 
现在 行 键 可 以 被 拆 分 成 两 列 ， 这 样 原始 的 文本 文件 将 被 重 
AT BH SE 


grunt> S = foreach R generate FLATTEN(STRSPLIT(key, '\u@@00',2))AS \ 


(user: chararray,time: long) ,query; 


grunt> DESCRIBE S; 


S: {user: chararray,time: long,query: chararray} 





再 次 使 用 DUMP 显示 最 终结 果 : 


grunt> DUMP S; 


(002BB5A52580A8ED,970916150445,margaret laurence the stone angel) 
(@@2BB5A52580A8ED, 970916150505,margaret laurence the stone angel) 





用 户 可 以 使 用 之 前 的 代码 替换 LOAD 和 STORE 语句 ， 然 后 按照 剩余 
的 Pig 教 程 尝试 处 理 。 


最 后 ， 输 入 QUIT 命令 可 以 退出 Grunt Shell: 


grunt> QUIT; 


tA 


当前 版 本 的 Pig 对 HBase 文 持 尚 有 一 些 缺 点 ， 如 下 所 示 。 
无 版 本 文 持 


目前 在 处 理 HBase 的 表 时 ， 没 有 任何 版 本 细节 控制 。Pig 总 是 返回 最 
近 一 个 版 本 的 数据 。 


固定 的 列 映射 


行 键 只 能 是 第 一 列 ， 且 不 能 被 其 他 列 取 代 。 但 是 ， 这 个 缺陷 可 以 通 
过 FOREACH. . .GENERATE 语句 克服 ， 进 行 重新 布局 。 


最 后 ， 用 户 在 使 用 Pig 前 ， 需 要 检查 是 否 己 经 添加 上 述 功能 





o 


6.3.4 Cascading 


Cascading 是 MapReduce 的 替代 API， 实 际 上 它 使 用 MapReduce 执 行 
作业 ， 但 用 户 在 开发 时 不 必 以 MapReduce 的 模式 来 考虑 它 的 执行 。 


该 模型 类 似 现实 世界 的 管道 装置 ， 数 据 来 源 是 水 龙头 ” (tap) ， 输 
出 是 汇总 (sink) 。 这 些 管 道 一 起 形成 了 处 理 流 程 ， 数 据 传 输 通过 管道 
并 在 这 个 过 程 中 进行 转换 。 管 道 可 以 连接 到 更 大 的 管道 组 件 ， 形 成 更 
复杂 的 处 理 流 程 。 

数据 流 经 (stream) 管道 ， 可 以 拆 分 、 合 并 、 分 组 或 汇总 ， 数 据 被 
表示 为 元 组 (tuple) 并 形成 了 一 个 元 组 流 (tuple stream) 。 这 种 面 问 


可 视 化 的 模型 使 得 开 用 MapReduce 的 任务 更 像 是 构造 工作 ， 并 且 降 低 了 
实际 工作 的 复杂 上 度 。 


Cascading 〈1.0.1 版 本 ) 文 持 从 HBase 集 群 读 写 数据 。 更 多 细节 和 源 
码 可 在 模块 页 面 http:/Awww.cascading.org/modules.html 中 进行 查阅 。 


例 6.2 展 示 了 汇总 数据 到 HBase 集 群 的 流程 。 从 模块 页 面 可 以 链接 到 
GitHub 仓 库 ， 点 击 可 查看 更 详细 的 API。 


例 6.2 ”使 用 Cascading| 可 HBase 插 入 数据 











// read data from the default filesystem 
// emits two fields: "offset" and "line" 
Tap source = new Hfs(new TextLine(),inputFileLhs); 


// store data in a HBase cluster,accepts fields "num","lower",and "upper" 
// will automatically scope incoming fields to their proper familyname, 
// "left" or "right" 
Fields keyFields = new Fields("num") ; 
String[] familyNames = {"left","right"}; 
Fields[] valueFields = new Fields[] {new Fields("lower"), 
new Fields("upper") }; 
Tap hBaseTap = new HBaseTap("multitable",new HBaseScheme(keyFields, 
familyNames, valueFields) ,SinkMode.REPLACE) ; 


// a simple pipe assembly to parse the input into fields 
// a real app would likely chain multiple Pipes together for more complex 
// processing 
Pipe parsePipe = new Each("insert",new Fields("line"), 
new RegexSplitter(new Fields("num","lower","upper")," ")); 


// "plan" a cluster executable Flow 

// this connects the source Tap and hBaseTap(the sink Tap)to the parsePipe 

Flow parseFlow = new FlowConnector(properties).connect(source,hBaseTap, 
parsePipe) ; 


// start the flow,and block until complete 
parseFlow.complete(); 


// open an iterator on the HBase table we stuffed data into 
TupleEntryIterator iterator = parseFlow.openSink(); 


while(iterator.hasNext()){ 
// print out each tuple from HBase 
System.out.printlin("iterator.next() = 


} 


+ iterator.next()); 


iterator.close(); 





与 Hive 和 Pig 不 同 的 是 ，Cascading 提 供 了 Java API， 而 不 提供 特定 领 
域 语言 (domain specific languages, DSL) 的 封装 和 访问 。 在 Cascading 
这 个 项 目 之 上 还 有 一 些 其 他 的 开源 项 目 提供 了 DSL。 


6.4 Shell 


HBase Shell 是 HBase 和 集群 的 命令 行 接 口 。 用 户 可 以 使 用 Shell 访 问 本 
地 或 远程 服务 器 并 与 其 进行 交互 ，Shell 同 时 提供 了 客户 端 和 管理 功能 的 
操作 ， 这 些 细节 我 们 在 本 书 的 前 面 几 章 中 已 经 介绍 过 了 。 





6.4.1 基础 


Shell 试 验 的 第 一 步 是 启动 Shell: 


$ $HBASE_HOME/bin/hbase shell 


HBase Shell;enter "help< RETURN>' for list of supported commands. 
Type "exit< RETURN>" to leave the HBase Shell 
Version @.91.@-SNAPSHOT, r1127782,Thu May 26 10:28:47 CEST 2011 


hbase(main) :001:@> 





HBase Shell 是 基于 Jruby 的 ，JRuby 是 基于 Ruby 实 现 的 Java 虚 拟 机 。 
四 更 确切 地 说 ， 它 使 用 的 是 交互 式 Ruby Shell (Interactive Ruby Shell, 
IRB) ， 输 入 命令 并 快速 得 到 响应 。HBase 使 用 Java 基 本 的 API 拓 展 了 
Ruby 脚 本 ， 并 且 继承 了 对 历史 记录 和 实现 的 内 置 文 持 ， 以 及 所 有 的 


Ruby 命 令 。 





Wa 
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心 ，Ruby 并 不 需要 刻意 安装 ，HBase 提 供 了 JRuby Shell 
运行 所 需要 的 JAR 文 件 。 用 户 可 以 直接 使 用 已 经 提供 的 、 基 





于 Java 运 行 的 Hbase Shell 脚 本 。 


启动 后 ， 用 户 输入 help fir Hj <2 令 然 后 回 车 ， 会 返回 文本 的 帮助 信息 
《以 下 代码 示例 省 略 了 部 分 内 容 ) : 


hbase(main):001:0> help 


HBase Shell,version @.91.@-SNAPSHOT,r1127782,Thu May 26 10:28:47 CEST 2011 
Type ‘help "COMMAND"',(e.g. ‘help "get"' -- the quotes are necessary)for 
help on a specific command. Commands are grouped. Type ‘help "COMMAND _GROU 
pes 

(e.g. ‘help "“general"')for help on a command group. 


COMMAND GROUPS: 
Group name: general 
Commands: status,version 


Group name: ddl 
Commands: alter, create, describe,disable, drop, enable,exists, 
is disabled,is enabled, list 


SHELL USAGE: 

Quote all names in HBase Shell such as table and column names. Commas del 
imit 

command parameters. Type < RETURN> after entering a command to run it. 
Dictionaries of configuration used in the creation and alteration of table 
s are Ruby Hashes. 

They look like this: 





如 上 所 述 ， 用 户 可 以 通过 在 调用 时 添加 命令 来 请 求 特定 的 帮助 ， 还 
可 以 对 一 组 命令 请 求 帮助 ， 命 令 或 组 名 都 需要 用 引号 括 起 来 。 





要 离开 命令 行 可 以 输入 exit 或 quit : 


hbase(main):002:0> exit 





Shell 命 令 在 局 动 时 也 有 特定 的 命令 行 选项 ， 添 加 -h 或 --help ， 切 
换 到 命令 行 时 会 看 到 这 些 命 令 行 选项 : 


$ $HBASE_HOME/bin.hbase shell -h 


HBase Shell command-line options: 


format Formatter for outputting results: console | html. Default: c 
onsole -d | --debug 
Set DEBUG log levels. 





调试 模式 


增加 的 -d 或 --debug 可 以 使 Shell 启 动 时 进入 调试 
(debug) 模式 ， 主 要 是 将 日 志 级 别 设置 为 DEBUG 级 别 ， 并 


让 Shell 打 印 出 与 Java stacktraces 信息 相似 的 backtrace 信 
自 


JU oO 


在 命令 行内 部 时 ， 可 以 通过 debug 命 令 来 切换 调试 模 


sl: 


hbase(main):001:0> debug 


Debug mode is ON 


hbase(main) :@02:@> debug 


Debug mode is OFF 











输入 debug ?命令 可 以 查看 当前 的 调试 模式 是 否 已 经 打 
FF: 


hbase(main) :@03:@> debug? 


Debug mode is OFF 





非 调 试 模 式 的 Shell 日 志 级 别 是 ERROR ， 并 且 根 本 不 会 
在 控制 台 上 打印 backtrace 信息 。 


此 外 ， 还 有 一 个 选项 用 于 切换 输出 数据 的 显示 格式 ， 但 是 这 个 选项 
只 在 控制 台中 可 用 。 


Shell 命 令 启 动 时 默认 选择 $HBASE HOME 中 的 配置 目录 。 用 户 可 以 
覆盖 默认 配置 目录 的 配置 ， 最 重要 的 是 可 以 连接 到 不 同 的 集群 。 新 建 包 
含 hbase-site.xml 文件 的 单独 目录 ， 配 置 hbase.zookeeper .quorum 属 
性 并 指定 另外 一 个 集群 ， 然 后 像 这 样 启 动 Shell: 








$ HBASE_CONF_DIR="/< your-other-config-dir 


>/" bin/hbase shell 








注意 ， 你 必须 要 指定 一 个 完整 日 录 ， 而 不 仪 仪 是 hbase-site.xml SC 
件 。 


6.4.2 ”命令 


所 有 的 命令 被 分 为 5 类 ， 分 别 代表 了 它们 之 间 的 语义 关系 。 在 输入 
命令 时 ， 必 须要 遵循 一 定 的 规则 。 


引用 名 


命令 行 要 求 在 使 用 表 名 和 列 名 时 必须 通过 单 引 号 或 双 引 号 对 其 进行 
引用 。 


引用 值 


命令 行文 持 二 进 制 、 八 进 制 、 十 六 进 制 的 输入 和 输出 。 用 户 在 引用 
时 必须 使 用 双 引 号 ， 否 则 Shell 将 把 它们 解释 成 文本 。 





hbase> get 't1', "key\x@@\x6c\x65\x6Ff\x6e" 
hbase> get 't1', "key\@00\154\141\165\162\141" 
hbase> put 't1', "test\xef\xff", 'f1:',"\x@1\x33\x70e" 





注意 上 述 的 混合 引用 ， 用 户 必 须 确保 这 个 引用 值 是 正确 的 ， 人 否则 无 
法 获得 预期 的 结果 。 


文本 在 单 引 号 内 将 和 被 当 做 文本 对 符 ， 在 双 引 号 内 将 被 但 换 ， 比 如 会 
将 八进制 或 者 十 六 进 制 值 转换 成 字 节 。 


fi FS or aS BL 


BBC IA i EA S WET aa Pl On: 





hbase(main):001:0> get 'testtable', 'row-1' 


‘colfam1:qual1' 





Ruby 散 列 属性 
一 些 命令 中 需要 设置 键 / 值 对 属性 。 使 用 Ruby 散 列 并 按 以 下 方式 来 





完成 : 


{'key1' => 'value1','key2' => 'value2',...} 





键 / 值 对 需要 被 包括 在 花 括 号 中 ， 键 / 值 之 间 使 用 “=>” 分 隔 。 使 用 键 / 
值 模式 赋值 的 属性 通常 是 NAME、VERSIONS 或 COMPRESSION， 并 且 
不 需要 使 用 引号 。 例 如 : 





hbase(main):001:0> create 'testtable',{NAME => 


'colfam1',VERSIONS => 1,\ 


TTL => 2592000,BLOCKCACHE => true} 





限制 输出 


get 命 令 有 一 个 用 于 限制 输出 结果 长 度 的 可 选 选项 ， 这 
对 输出 列 非常 多 或 输出 值 比较 长 的 情况 非 第 有 用 。 限 制 长 
度 可 以 得 到 快速 预览 值 ， 并 阻止 控制 台 打 印 超出 长 度 的 数 
据 ， 人 否则 控制 合 会 很 快 变 得 难以 控制 。 


下 面 的 例子 中 ， 插 入 了 一 个 非常 长 的 值 ， 检 索 时 使 





用 MAXLENGTH 限制 了 返回 长 度 : 


hbase(main):001:@> put 


‘testtable', 'rowlong', 'colfam1:qual1', 'abcdefghijklmnopqrstuvwxyzabcdefghi 
\ 


jklmnopqrstuvwxyzabcdefghijk1lmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcde 
\ 


xyzabcdefghijklmnopqrstuvwxyzabcdefghijkimnopqrstuvwxyz' 


hbase(main):018:@> get 'testtable', 'rowlong',MAXLENGTH => 


COLUMN CELL 
colfami:qual1l timestamp=1306424577316, value=abcdefghijklmnopqrstuvwxyzab 
c 





MAXLENGTH 这 个 值 是 从 一 行 的 开头 开始 统计 ， 即 该 包 
括 列 名 。 如 果 将 其 设置 为 控制 台 的 长 度 ， 它 可 以 更 好 地 显 
Ae te 





iy 每 一 a 令 的 使 用 方法 都 可 以 通过 help'<command> “来 获取 详细 
Aa, Bla 


hbase(main):@@1:@> help ‘status’ 


Show cluster status. Can be 'summary','simple',or ‘detailed’. 
default is ‘summary’. Examples: 


hbase> status 

hbase> status ‘simple’ 
hbase> status 'summary' 
hbase> status ‘detailed’ 





大 多 数 命 令 都 Pn 削 API 或 具有 管理 功能 的 API 提 供 的 方 
法 。 后 面 几 节 将 简要 介 命令 以 及 这 些 API 的 匹配 关系 。 


1. 普通 命令 





表 6-1 列 出 了 常用 命令 。 这 些 命 令 为 用 户 提 供 了 获取 集群 详细 状态 
的 功能 ， 以 及 HBase 运 云 行 时 版 本 人 信息。 详情 见 5.2.5 节 描述 的 


ClusterStatus 类 。 


表 6-1 普通 Shell 命 令 


2p 
“> 


描述 


返回 clusterstatus 类 中 各 种 级 别 的 信息 。 通 过 帮助 可 以 查看 简单 
(simple) . 44 (summary) 和 详细 (detailed〉 状态 





status 











返回 当前 版 本 信息 、 仓 库 版 本 和 编 详 信 筷 。 见 旨 


ClusterStatus.getHBaseVersion() 方法 





Version 








2. 数据 定义 
表 6-2 列 出 了 所 有 DDL 命 令 ， 其 中 大 


详情 见 第 5 章 。 


使 用 modifyTable() 修改 现 有 表 结 构 ， 详 情 见 5.2.3 节 
创建 新 表 ， 详 情 见 5.2.2 节 中 的 createTable() 调用 方 ; 
打印 HTablepescriptor 对 象 ， 详 情 见 5.2.2 节 
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禁用 表 ， 详 情 见 5.2.2 节 中 的 disableTable() 方法 
删除 表 ， 详 情 见 5.2.2 节 中 的 deleteTable() 方法 

启用 表 ， 详 情 见 5.2.2 节 中 的 enableTable() 方法 

详 1 .2. 的 tableExists() 方法 


is disabled | 检查 表 是 否 已 经 禁用 ， 详 情 见 5.2.2 节 中 的 isTableDisabled() 方法 


















































is _ enabled 检查 表 是 否 已 经 启用 ， 详 情 见 5.2.2 节 中 的 isTableEnabled() 方法 


























所 有 表 ， 详 情 见 5.2.2 节 中 的 listTables() 方法 








3. 数据 操作 


表 6-3 列 出 了 DML 操 作 ， 其 中 大 多 数 操作 来 自 于 客户 端 API， 详 情 见 
第 3 章 和 第 4 章 。 


统计 一 张 表 的 行 数 ， 内 部 使 用 了 scan ， 详 情 
删除 一 个 单元 格 ， 详 情 见 3.2.3 节 中 的 pelete 类 


deteall 类 似 于 delete 但 不 仅仅 删除 一 列 ， 主 要 会 删除 一 个 列 族 或 列 ， 详 情 见 3.2.3 
节 中 的 Delete 类 


获取 一 个 单元 格 ， 详 情 见 3.2.2 节 中 的 Get 类 





表 6-3 DML 命令 
























































get _ 返回 一 个 计数 器 数值 。 这 个 和 get 命令 类 似 ， 但 是 它 将 计数 器 值 转换 成 了 
counter | 可 以 阅读 的 数字 ， 详 情 见 3.2.2 节 中 的 Get 类 


给 计数 器 加 一 ， 详 情 见 4.2 节 中 的 Increment 类 
存储 一 个 单元 格 ， 详 情 见 3.2.1 节 中 的 put 类 


扫描 一 个 范围 的 数据 ， 依 赖 于 scan 类 ， 详 情 见 3.5 节 中 的 scan 类 






































teuncste 清理 一 张 表 中 的 数据 ， 相 当 于 disable 、drop create 在 使 用 同一 个 模式 
下 顺序 执行 
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4. 工具 


表 6-4 列 出 了 工具 类 命令 ， 这 些 命令 都 来 自 于 管理 API， 详 情 见 5.2.4 
N o 























表 6-4 工具 命令 











切换 负载 均衡 状态 ， 详 情 见 5.2.4 节 中 的 balanceswitch() 方法 


启动 负载 均衡 ， 详 i .2.4 节 中 的 balancer() 方法 
关闭 一 个 region， 详情 见 5.2.4 节 中 的 closeRegion() 方法 


























开局 休 个 region 或 一 张 表 的 异步 合并 操作 ， 详 情 见 5.2.4 节 中 的 compact() 方 
法 

~ 某 个 region 或 一 张 表 的 异步 刷 写 操作 ， 详 情 见 5.2.4 节 中 的 flush() 方 
> 


major “| 开启 某 个 region 或 一 张 表 的 异步 强制 合并 操作 ， 详 情 见 5.2.4 节 中 的 
Compact majorCompact() 方法 。 


移动 一 个 region 到 不 同 的 服务 器 中 ， 详 ; .2.4 节 中 的 move() 方法 
拆 分 一 个 region 或 一 张 表 ， 详 情 见 5.2.4 节 中 的 split() 方法 


unassign 下 线 一 个 region， 详情 见 5.2.4 节 中 的 unassign() 方法 



































转 存 ZooKeeper 固 有 信息 到 HBase 中 ， 这 是 内 部 类 提供 的 特殊 功能 ，HBase 








Master 的 Web UI 也 提供 了 类 似 的 信息 





5. 复制 
表 6-5 列 出 了 复制 Creplication) 的 命令 。 
表 6-5 ”复制 命 人 


令 























































































stop _ replication 关闭 复制 进程 





6.4.3 ”脚本 


用 户 有 时 希望 脚本 是 交互 式 地 执行 ， 并 且 可 以 立即 得 到 返回 值 ， 有 
时 则 希望 通过 调度 系统 (如 cron 或 at) 定时 执行 一 个 命令 。 或 者 用 户 可 
以 使 用 Nagios 或 其 他 监控 工具 发 送 脚本 并 作出 反应 。 用 户 还 可 以 通过 管 
道 (piping) 的 形式 运行 命令 : 


$ echo "status" | bin/hbase shell 


HBase Shell;enter ‘help< RETURN>' for list of supported commands. 
Type "exit< RETURN>" to leave the HBase Shell 
Version @.91.0-SNAPSHOT,r1127782,Thu May 26 10:28:47 CEST 2011 


status 
1 servers,@ dead,44.0000 average load 





一 旦 这 个 命令 完成 ，Shell 会 自动 退出 ， 并 且 程 序 控制 权 会 返回 给 调 
用 者 。 最 终 ， 用 户 也 可 以 在 一 开始 就 提交 整个 Shell 执 行 脚本 : 


$ cat ~/hbase-shell-status.rb 


status 
$ bin/hbase shell ~/hbase-shell-status.rb 


1 servers,@ dead,44.0000 average load 


HBase Shell;enter ‘help< RETURN>' for list of supported commands. 
Type "exit< RETURN>" to leave the HBase Shell 
Version @.91.0-SNAPSHOT, r1130916,Sat Jul 23 12:44:34 CEST 2011 


hbase(main):001:@> exit 





一 旦 脚本 执行 完成 ， 用 户 就 可 以 继续 在 Shell 中 执行 脚本 或 者 和 平时 


一 样 退 出 Shell。 用 户 可 以 通过 一 个 可 选 的 开关 直接 使 用 原生 JRuby 解 释 
器 ， 并 以 Java 应 用 的 模式 启动 脚本 ， 用 户 在 hbase 脚本 中 通过 设置 
classpath YD WEES J ava 以 下 的 例子 获得 了 远程 集群 上 表 的 列表 


Huw: 





$ cat ~/hbase-shell-status-2.rb 


include Java 
import org.apache.hadoop.hbase.HBaseConfiguration 
import org.apache.hadoop.hbase.client.HBaseAdmin 


conf = HBaseConfiguration.new 

admin = HBaseAdmin.new(conf) 

tables = admin.listTables 

tables.each { |table| puts table.getNameAsString() } 


$ bin/hbase org.jruby.Main ~/hbase-shell-status-2.rb 


testtable 





为 Shell 基 于 Jruby 的 IRB， 所 以 我 们 可 以 使 用 它 的 内 置 功能 ， 例 
如 ， 命 令 补 全 和 命令 历史 记录 。 启 用 这 个 功能 需要 在 home 目 录 中 创 
建 .irbrc 文件 ，Shell 启 动 时 会 自动 读 取 : 





$ cat 一 /.irbrc 


require ‘'irb/ext/save-history' 
IRB.conf[ :SAVE_HISTORY] = 100 
IRB. conf[ :HISTORY_FILE] "#{ENV[ 'HOME' ]}/.irb-save-history" 


pO 


启动 命令 行 历史 记录 能 够 保存 执行 过 的 Shell 命 令 。 命 令 补 全 已 经 被 
HBase 脚 本 启用 了 。 
区 互 式 解 释 器 拥有 可 以 直接 调用 HBase 类 和 功能 函数 的 优点 ， 例 


如 ， 一 些 应 用 要 求 必 须 写 Java 程 序 。 下 面 的 例子 将 二 进 制 字 节 数组 通过 
Bytes.toBytes() 调用 转化 为 了 整 型 : 


hbase(main):001:0> 
org.apache.hadoop.hbase.util.Bytes.toInt(\ 


"\x@@\x01\x06[".to_java_bytes) 





Fa 
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Aa + 
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| 


”注意 Shell 如 何 将 前 3 个 不 可 见 字符 编码 为 十 六 进 制 
值 ， 而 第 4 个 字符 “[ 则 作为 一 个 字符 打印 。 








为 一 个 例子 就 是 将 日 期 类 型 转化 为 Linux 时 间 数 ， 然 后 再 将 其 转化 
为 人 类 可 读 的 日 期 : 





hbase(main):002:0> java.text.SimpleDateFormat.new("yyyy/MM/dd HH:mm:ss"). 
parse(\ 


"2011/05/30 20:56:29").getTime() 


=> 1306781789000 


hbase(main) :002:@> java.util .Date.new( 1306781789000) .toString() 


=> "Mon May 30 20:56:29 CEST 2011" 





最 后 ， 还 有 循 坏 添 加 数据 的 例子 ， 例 如 ， 填 充 测 试 数 据 到 测试 表 : 


hbase(main):003:0> for i in 'a'..'z' do for j in 


",.'z' do put 'testtable',\ 


"row-#{i}#{j}", "colfam1:#{j}","#{j}" end end 





一 个 更 复杂 的 填充 计数 可 能 如 下 : 


hbase(main):004:@> require ‘date'; 


import java.lang.Long 


import org.apache.hadoop.hbase.util.Bytes 


(Date.new(2011,01,01)..Date.today).each { |x| put "testtable", "daily", \ 


"colfam1:" + x.strftime("%Y%m%d" ) , Bytes. toBytes(Long.new(rand * \ 


4000) .longValue) .to_a.pack("CCCCCCCC") } 





很 明显 地 ， 这 些 看 起 来 就 像 是 Ruby 本 身 的 功能 。 如 果 用 户 拥有 一 些 
其 他 语言 的 编程 技巧 ， 就 能 够 很 容易 地 使 用 基于 Shell 提 供 的 IRB 功 能 。 
这 是 一 个 由 简单 到 复杂 的 过程。 


6.5 ”基于 Web 的 UI 


HBase 提 供 了 基于 Web 的 用 户 接 口 (简称 UI) ， 通 过 Web UI 可 以 查 
看 集群 状态 以 及 数据 表 的 服务 状态 。 其 中 大 多 数 功能 是 只 读 的 ， 但 也 有 
少量 功能 可 以 通过 Web UI 触 发 。 


6.5.1 master 的 UI 


HBase a 2) Y Web UI 并 列 出 了 其 所 有 重要 属性 。master 的 Web 默 认 
端口 是 60010，region 服 务 器 的 Web 默 认 端 口 是 60030。 如 果 master 运 行 在 
默认 端口 上 上， 并 且 服 务 器 的 名 称 为 master.foo.com， 那 么 HBase Web 的 访 
问 地 址 就 是 http:/master.foo.com:60010 。 


| [e P 
Web 服 务 器 端口 可 以 通过 配置 文件 hbase-site.xml 来 
修改 ， 其 属性 包括 : 





hbase.master.info.port 
hbase.regionserver. info. port 





1. ER 


图 6-2 展 示 了 集群 Web UI 的 主页 。 在 这 个 页 面 中 ， 用 户 可 以 查看 
HBase 集 群 的 当前 状态 、 提 供 服 务 的 表 和 region 服 务 器 等 
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图 6-2 HBase Master UI 
主页 的 信息 划分 为 以 下 几 类 。 


Master Attributes 


表格 的 顶部 显示 了 集群 的 粗 粒 上 度 信 息 ， 包 括 HBase 的 版 本 、Hadoop 


的 版 本 、 当 前 HBase 集 群 在 HDFS 中 的 根 目 录 `、、 了 平均 负载 、ZooKeeper 
的 连接 地 址 。 


此 外 ， 还 有 一 个 ZooKeeper 的 链接 可 以 查看 HBase 当 前 存储 在 
ZooKeeper 中 的 信息 ， 详 情 见 8.7 节 。 


Running Tasks 


主页 中 的 下 一 组 信息 描述 了 当前 正在 执行 的 任务 〈currently 
running tasks) 。master 执 行 的 每 个 正在 运行 的 内 部 操作 都 被 列 在 这 里 ， 
并 等 待 其 执行 完成 。 和 白色 背景 表示 正在 执行 的 任务 ， 绿 色 背 景 表示 已 经 
成 功 完成 的 任务 ， 黄 色 背 景 表 示 已 经 被 撤销 的 任务 一 一 当 因 为 状态 不 一 
致 而 操作 失败 时 会 发 生 此 类 情况 。 图 6-3 展 示 了 一 个 已 完成 的 任务 、 一 
个 正在 执行 的 任务 和 一 个 失败 的 任务 。 














Currently running tasks 


Description Status Age 

5 

Doing distributed log split I finished splitting (more than of equal 1) 120291 byes in | 
hdfs- Mocalhost: B02 Armoa NER 42.1 3.74 60020 1 6849761977 


=“ ~ Shose 020 hihase! Jopfw42.13 74,600) 2% 1306849 761977 in os 
43s ago) 


45s 
ors he ae wet mee cating 10.13 3 60020 130668763597 Checking directory comments N — 
js ago) 


Master startup Assagning META region 





图 6-3 ”当前 集群 正在 执行 的 任务 
Catalog Tables 


本 节 有 两 张 表 ，.META. 和 -ROOT- ， 用 户 点 击 表 名 可 以 查看 表 的 详 
细 信 息 ， 例 如 ， 哪 些 服务 器 加 载 了 这 张 表 。 


User Tables 


用 户 可 以 通过 此 页 面 查看 当前 HBase 集 群 的 数据 表 ， 这 些 表 都 是 用 
户 通 过 API 或 HBase Shell 所 创建 的 表 。 表 格 属 性 列 展 示 了 表 描 述 ， 其 中 
包含 了 所 有 的 列 族 描 述 ，5.1 节 解释 了 如 何 阅读 它们 。 


点 击 表 名 可 以 链接 到 另 一 个 页 面 ， 具 体内 容 见 本 书 "用 户 表 信息 页 
面 "中 的 介绍 








Region Servers 


这 个 表格 显示 了 master 知 晓 的 所 有 region 服 务 器 。 这 张 表 列 出 了 地 
址 ， 用 户 点 击 该 地 址 可 以 获取 到 更 详细 的 信息 。 这 些 信 息 包 括 region 服 
Kes Kass CAM eka NID) 和 服务 器 负载 等 信息 。 详 情 见 
5.2.5 节 ， 尤 其 是 HServerLoad 类 。 








Regions in Iransition 


处 于 打开 中 、 关 闭 中 和 拆 分 中 的 region 都 会 出 现在 这 一 队列 中 ， 执 
行 操作 前 ， 将 region 加 入 到 这 个 列表 中 ， 操 作 完 成 后 ， 将 region 从 这 个 列 
和 
Jregiono 





Regions in Transition 
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图 6-4 master Web UI 中 展示 的 处 于 事务 中 的 region 
2. 用 户 表 信息 页 面 


用 户 点 击 表 链 接 会 进入 已 选择 的 表 的 信息 页 面 。 图 6-5 展 示 了 用 户 
表 信 息 页 面 的 精简 版 (只 显示 了 部 分 region) 。 


用 户 表 信息 页 面 展示 了 如 下 几 类 信 
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Regions by Region Server 





Table Attributes 





This action will foece 2 compaction of af repons of the table, or, if a key is 
supplied, only the region containing the given key 


This action will force # spät of all eligible regions of the mble. or, df a key i» 
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图 6-5 ”所 选 的 表 的 相关 信息 页 面 








显示 了 表 上 自身 的 信息 ， 仅 包括 表 状 态 (table status) ， 即 表 是 人 否 
用 。 显 示 结 果 为 true 则 表示 表 可 用 ， 显 示 结 果 为 false 则 表示 表 当 前 被 
禁用 。 详 情 见 5.2.2 节 的 disableTable() 调用 。 


布尔 值 描述 了 表 是 


个 被 局 用 ， 所 以 当 你 在 这 一 列 中 看 见 true 时 则 


表明 表 被 启用 了 。 相 反 地 ，flase 就 表示 表 目 前 被 禁用 。 


Table Regions 


这 个 表格 列 出 了 当前 表 中 所 有 的 region。 其 中 包括 了 region 名 、 所 在 
服务 器 地 址 (该 地 址 链接 到 部 署 该 region 的 服务 器 UI， 详 情 见 6.5.2 


E 








有 时 表格 会 显示 未 部 署 (not deployed) 的 信息 ， 这 一 字段 本 来 应 
该 显示 这 个 region 在 哪 人 台 服 务 器 中 服务 。 这 是 因为 该 region 疝 未 在 任何 一 
台 服 务 器 中 提供 服务 。 图 6-6 展 示 了 这 个 情况 的 例子 。 
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图 6-6 region 没有 被 任何 服务 器 加 载 则 显示 未 部 署 


Start Key 与 End Key 列 展示 了 region 的 起 始 行 键 和 终止 行 键 。 最 后 ， 
Requests 列 显示 了 从 region 部 署 到 现在 region 的 每 秒 请 求 数 ， 包 括 了 所 有 
读 (get 和 scan) FI (put 和 delete〉 操作。 








Regions by Region Server 


最 后 一 个 属性 格 显 示 了 每 个 region 服 务 器 加 载 的 当前 表 的 region 数 
量 ， 通 常 这 些 数 值 比 较 平均 。 如 果 这 些 数值 不 够 平均 ， 用 户 可 以 手动 使 
用 HBase Shell 或 者 具有 管理 功能 的 API 初 始 化 负载 均衡 器 或 执行 move 命 
令 重 新 均衡 表 的 负载 (详情 见 5.2.4 节 )〉。 


当前 页 面 还 提供 了 针对 特定 region 和 整 表 的 管理 功能 。 详 情 见 5.2.4 
节 以 及 11.4 节 。 以 下 是 页 面 中 的 可 用 操作 。 





Compact 


这 里 可 以 触发 合并 (compact ) 操作 ， 该 操作 在 后 人 台 异 步 执行 。 执 
行 该 命令 时 设置 region 名 更 具有 选择 性 ，region 名 可 以 从 上 面 的 表 中 找 
到 ， 即 Table Regions 表 中 的 Name 列 的 值 。 


Fa 


mx 
a 好、 + 
| wW a 


ny 在 复制 region 名 时 ， 一 定 要 将 尾部 的 “.” 包 括 在 内 ! 





如 有 果 没 有 设置 region 名 ， 合 并 操作 会 将 全 表 的 所 有 region 作 为 目标 。 
Split 


类 似 于 合并 操作 ， 拆 分 以 单个 region 或 全 表 为 目标 。 但 是 ， 并 非 所 
有 的 region 都 能 执行 拆 分 ， 例 如 ， 一 些 不 包含 数据 或 包含 非常 少数 据 的 
pe 或 已 经 执行 拆 分 操作 但 并 未 执行 合并 操作 的 region 均 不 能 执行 拆 
分 操作 。 


一 旦 触发 其 中 一 个 操作 ， 用 户 会 进入 到 一 个 确认 页 面 ， 例 如 ， 执 行 
拆 分 命令 后 会 看 到 : 








Split request accepted. 


Reload. 











点 击 浏览 器 后 退 健 可 以 退回 到 前 面 访问 的 用 户 表 页 面 。 
3. ZooKeeper 页 面 


在 描述 列 中 有 一 个 链接 可 以 让 用 户 转 存 HBase 所 有 在 ZooKeeper 中 存 
储 的 信息 。 这 个 页 面 会 显示 所 有 HBase 存 储 在 ZooKeeper 中 的 节点 ， 这 对 
于 查看 集群 状态 并 解决 问题 很 有 用 《详情 见 12.5 节 ) 。 


这 个 页 面 展示 了 与 使 用 HBase Shell 调 用 zk_dump 操作 相同 的 信息 。 
它 展示 了 HBase 在 配置 文件 系统 中 的 根 目 录 ， 用 户 可 以 看 到 当前 的 
master 地 址 、-ROOT- 表 地 址 和 所 有 提供 服务 的 region 服 务 器 。 图 6-7 展 示 
了 ZooKeeper 页 面 的 示例 输出 。 


e 
| | 六 ZooKeeper Dump 


HBASE 
Master, Local logs, Thread Dump, Log Level 


BBase is rooted at /hbase 
Master address: localhost, 60000, 1306663023371 
Region server holding ROOT: localhost,60020, 1306663024434 
Region servers: 
localhost , 60020, 1306663024434 
Quorum Server Statistics: 
localhost:2181 
Zookeeper version: 3.3.2-1031432, built on 11/05/2010 05:32 GMT 
Clients: 
£1080:0:0:0:0:0:02181:54451( 1) (queued0, recved=298, sant=300) 
4£080:0:0:0:0:0:0:182:55217{1) (queved=0, recved=263, sent+283) 
/1080:0:0:0:0:0:021%1:52307[ 1) (quevued«0, recved=634,sent=638) 
40:0:0:0:0:0:0:140:59324[1) (queved=0, recved=6897,sent*6901) 
£02020201010:02180:54449/ 1) {queued=0, recved=870, sent=877 } 
4127.0.0.1:60703(0) (queved<0, recved=1,sent=0) 
/050:50:0:0:0:0:190:64611/( 1) (queued=0, recved=12815, sent=12824) 
/127.0.0.1:54442(1) (queved=0, recved=316,sent=318) 
/1080:0:0:0:0:0:02181:54433/ 1) (queued=0, recved=1141,sent=1549) 


Latency min/avg/max: 0/0/780 
Received: 274270 

Sent: 276689 

Outstanding: 0 

Bxid: 0x90a4a 

Mode: standalone 

Node count: 19 

















图 6-7 ZooKeeper 页 面 ， 列 出 了 HBase 和 ZooKeeper 的 一 些 细节 ， 调 试 HBase 的 安装 过 程 中 很 有 
用 


6.5.2 region 服务器 的 UI 


region 服 务 器 提供 了 独立 的 基于 Web 的 UI， 用 户 通常 可 以 通过 在 
master 的 UI 中 反击 提供 的 服务 占 名 字 链 接 进 行 访问 。 用 户 也 可 以 直接 输 
入 以 下 地 址 进行 询问 。 








http://< 
region-server-address 


> : 60030 


主页 


region 服 务 器 主页 提供 了 当前 进程 的 细节 信息 、 任 务 以 及 加 载 的 
region。 图 6-8 展 示 了 这 个 页 面 的 一 个 简短 的 例子 一 一 列 出 了 当前 的 任务 
列表 、region， 为 了 节省 空间 ，region 的 名 字 被 缩短 了 。 








Tt: Region Server: localhost:60020 
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图 6-8 Region Server® W 
显示 信息 分 以 下 几 个 部 分 。 


Region Server Attributes 


这 组 信息 包含 了 正在 运行 的 HBase 版 本 信息 、 编 译 时 间 、 服 务 进程 
的 监控 指标 和 正在 使 用 的 ZooKeeper 连 接地 址 。 关 于 监控 指标 在 10.2.3 节 
中 有 详细 解释 。 

Running Tasks 

这 个 表格 列 出 了 当前 正在 执行 的 任务 ， 和 白色 背景 表示 正在 执行 的 任 
务 ， 绿 色 背 景 表 示 已 经 成 功 完成 的 任务 ， 黄 色 背 景 表示 已 经 被 撤销 的 任 
务 。 失 败 任务 或 已 完成 的 任务 会 在 一 分 钟 之 内 被 移 除 。 


Online Regions 


用 户 在 这 里 可 以 看 到 当前 机 器 加 载 的 所 有 region 人 信息， 包括 region 
名 、 起 始 与 终止 行 键 和 region 监 控 信 息 。 


6.5.3 ”共享 页 面 


master、region 服 务 器 和 表 的 主页 都 有 少量 通用 的 页 面 链接 到 子 页 
面 ， 以 显示 或 者 控制 额外 的 细 市 。 


本 地 日 志 
这 是 一 个 不 需要 登录 服务 器 只 需 点 击 链接 便 可 以 访问 日 志 的 便捷 方 


式 ， 它 会 列 出 1og 目录 下 所 有 的 日 志文 件 ， 用 户 可 以 任意 选择 并 访问 ， 
详情 见 12.5.2 节 。 图 6-9 展 示 了 当前 的 例子 。 








Directory: /logs/ | 


581480 bytes May 29, 2011 12:58:08 PM 
985818 bytes May 16, 2011 11:58:11 PM 
99460809 bytes May 17, 2011 11:59:49 PM 
1495814 bytes May 18, 2011 11:56:54 PM 
1254398 bytes May 23, 2011 11:57:47 PM 
169627 bytes May 24, 2011 11:57:37 PM 
112382 bytes May 25, 2011 11:57:47 PM 
418021 bytes May 26, 2011 11:59:47 PM 
114861 bytes May 27,2011 11:59:55 PM 
103291 bytes May 28, 2011 11:59:59 PM 
O bytes May 29.2011 11:57:01 AM 
8927 bytes May 29, 2011 11:56:28 AM 

8927 bytes May 26,2011 2:04:21 PM 
10684 bytes May 26, 2011 8:52:55 AM 
8942 bytes May 23, 2011 3:25:19 PM 

O byles May 23, 2011 9:21:35 AM 

993370 bytes May 29, 2011 12:58:54 PM 

5 59611624 bytes May 17,2011 12:00:00 AM 





§ 8655825 bytes May 18, 2011 11:56:24 PM 
3417214 bytes May 23, 2011 11:57:17 PM 








图 6-9 本 地 日 志 页 面 





线程 转 储 


基于 调试 的 目的 ， 用 户 通 过 此 页 面 可 以 查看 正在 运行 的 HBase 进 程 
的 Java stack traces 信 息 ， 详 情 见 12.5 节 。 图 6-10 展 现 了 示例 输出 。 








Frocess Thread Despi 
53 active threade 
Thread 265 (4097945080gtp-873126599-22): 
State: AUNMABLE 
Blocked coust: 11 
Maited count: 11 
Steck: 
Pon Ranagement ,Threadinpl.getThreadinto0(Native Method) 
wun. management .Threadinp! . get Threadiafo( Threading! . java:147) 
fun  Ranegement . Threading!) .getThreadiafo( Threading! , java:123) 
apache .hadoop.util. Reflect ionltiisa.printThreadinfo(ReflectionUtils, javsa:149) 
apache.hedoop.http.EttpSerwer$StackServlet.deGet(NttpSerwer. jave:513) 
erviet http. HttpServlet . service «Httpservlet. java:707) 
-serviet http. dttpServiet .service(HttpServiet. java: 820) 
org.mortbay. jetty.serviet.Servlettolder.handle(Servliettolder.jawa:5i1) 
Org mortbay. jetty, servlet. Servlethaadier.handle(servlethandler. java: 40l ) 
org Rorthay. jetty. security. Security@ardier,handle(SecurityHardier.javai2is) 
org.sortbey. jetty. servlet .Sessiontasdler.handle(Sessionitandler. java: 182) 
Org mortbay. jetty. handler .contextHaadier , handle(Contexthandler . java: 766} 
org, worthay. jetty. webapp. BebAppContert .handle(WebAppContext , java 450) 
org.sortbay-jetty.handler.ContextilandierCol lectice.handla|CoetextBandlercol lection. java:230} 
org mortbey. jetty. handler. #andlerWrapper . handle(#ardlerWrapper . java: 152) 
org. mortbay. jetty. Server. bandle (Server. j» mr 326) 
org.sortbay. jetty. NttpComsection.handleRequest(M@ttpConnection.java:5é2) 
org. mortbay. jetty. HttpComsect ionsfequesttiandler.headerCosplete(#ttpConnection. java:928) 
org. sortbay.jetty.attpParcer.parsetiext (NttpPars ava:549) 
org.sortbay.jetty.iittpPřarser.parseAvailable|ittpfarser. java:212) 
Thread 254 (210956960@qtp~973128399-20)+ 
State: TIMED MATTING 
Blocked couat: 159 
Waited count: 157 
Steck: 
java.lang.Object .wait(Mative Method) 
Org nortbay,. thread. QuevedThreodroolsrool Thread, rus(QeevedThreadPwol . javaré24) 
Thresd 76 | MASTER_SERVER_OPERATIONS-localtost ,60000, 1) 0€663023375~-2)3 
State: WAITING 
Blocked couat: 108 
Msited counts $9 
Maiting om java.util.comeurrent. locka.AbstractQueuedSynchronizer§ConditionObject S063¢5art 
Steck: 
won, wlieo.eeate,porkiMative Method) 
jave.util.concurrent.locts.LockSupport -park|LockSupport .java:i3#) 
java.util. concurrent, locks. AbstractQuewedsynchronizer$Conditiosobject . await (AbstractQuevedsynchronizer. java: 1987) 
java.util concurrent .LinkedBlookingQuese. take(LintedBlockingQuese. java: 399) 
jeva.util comcurreant .ThreadPoolfzecutor.gatTask(ThreadPoolkzecutor. ja 947) 
java.util. concurrent, Tareadroo lExecutortworker. rusn( ThreadPoolfsecetor . javarse)) 
tave. lang. Threed. cun( Thread, everett? 





图 6-10 ”线程 转 储 页 面 
日 志 级 别 


这 个 链接 对 应 的 页 面 允 许 用 户 获取 并 重 设 HBase 进 程 的 日 志 级 别 ， 
详情 见 12.4 节 。 图 6-11 展 示 了 页 面 布 局 。 











Hadoop. 2011. 





图 6-11 日 志 级 别 页 面 


例如 ， 我 们 在 第 一 个 格 中 输入 org.apache.hadoop.hbase ， 然 后 


点 击 Get Log Level 按 钮 ， 会 得 到 图 6-12 所 展示 的 结果 。 


Log Level 


Results 

Submitted Log Name: org.apache.hadoop.hbase 

Log Class: org.apache.commons.logging imp|.Log4JLogger 
Effective level: DEBUG 

Get / Set 


Log: | (Ger Log Level ) 








PS 
Log: Level: ( Set Log Level ) 


Hadoop, 2011. 





图 6-12 日 志 级 别 结果 页 面 


HBase 服 务 提供 的 Web UI 是 快速 获取 集群 状态 、 碍 看 表 信 息 等 操作 
用 户 也 可 以 使 用 HBase Shell 来 达到 这 个 目的 ， 但 是 这 依赖 于 
空 制 台 。 

用 户 可 以 使 用 UI 触 发 选 定 的 管理 操作 ， 但 并 不 是 每 个 用 户 都 有 权 如 
此 操作 : 类 似 于 Shell， 这 些 管理 操作 最 好 由 集群 管理 员 负 责 。 


如 采用 户 需要 建 表 、 删 表 、 操 作 表 等 操作 ， 最 好 通过 HBase 上 额外 
的 一 层 ， 例 如 ， 使 用 Thrift 或 REST 作 为 网 天 服务 器 提供 此 类 服务 给 最 终 
FAP 














© JlRoy T. Fielding 在 2000 年 发 表 的 文章 “Architectural Styles and the 
Design of Network-based Software Architectures” ( 
http://www.ics.uci.edu/~fielding/pubs/dissertation/top.html ) 。 


© 见 SOAP 的 官方 文档 ( http:/;www.w3.org/TR/soap/ ) 。SOAP 全 称 是 


Simple Object Access Protocol，SOAP 使 用 HTTP 作 为 传输 协议 ， 但 每 个 
服务 都 拓展 了 一 个 不 同 的 API。 


© 见 官 方 Protocol Buffer 项 目 网 站 http://code.google.com/p/protobuf/ 。 
4) 见 Thrift 项 目 网 站 hetp://thrift.apache.org/ o 
© 见 Apache Avro 项 目 网 站 http://avro.apache.org/ 。 


© curl 是 一 个 使 用 URL 语 法 的 命令 行 传输 数据 的 工具 ， 文 持 的 协议 繁 

多 。 详 情 见 该 项 目 网 站 http:/curl.haxx.se/ 。 

CO 基本 思路 是 任何 非 安全 的 或 不 可 打印 的 字符 都 用 %+ASCI 来 表示 . 
为 它 使 用 百 分 号 为 前 缀 ， 它 也 被 称 为 百分比 编码 ， 有 关 详 情 用 户 可 以 碍 
阅 维基 百科 http://en.wikipedia.org/wiki/Percent-encoding 。 


详情 见 维基 百科 关于 Base64 的 页 面 〈 
http:en.wikipedia.org/wiki/Base64 ) 。 


(9) http://hive.apache.org/ 。 

见 Hive Wikiwiki 页 面 
http://wiki.apache.org/hadoop/Hive/StorageHandlers ， 查 看 有 关 存 储 处 理 
器 的 更 多 细节 。 

Q Hive Wikiwiki 页 面 ( 
http://wiki.apache.org/hadoop/Hive/HBaselIntegration ) 完整 地 解释 了 
HBase 如 何 与 Hive 集 成 。 

(2) http://pigapache.org/ 。 

(3) 内 部 使 用 RowFilter 类 ， 详 情 见 4.1.2 节 的 “RowFilter ”。 


在 Pig 安 装 页 面 http:/pig.apache.org/docs/r0.8.0/setup.html 中 可 查看 完 
整 信 A o 


O 详情 见 Ruby 页 面 网 站 http:/www.ruby-lang.org/ o 


W 不 能 使 用 /tmp ， 人 否则 一 旦 机 器 重启 会 丢失 数据 ， 详 情 见 2.1 节 。 





第 7 章 ”与 MapReduce 和 集成 


HBase 最 大 的 特点 之 一 就 是 可 以 紧密 地 与 Hadoop 的 MapReduce 框 架 
集成 。 下 面 我 们 将 介绍 如 何 利用 这 些 特点 ， 同 时 HBase 的 某 些 特性 如 何 
发 挥 其 优势 。 


7.1 框架 


在 介绍 如 何在 MapReduce 中 使 用 HBase 之 前 ， 我 们 先 看 一 下 
MapReduce 中 的 一 些 基 本 概念 。 


7.1.1 MapReduce 介 绍 


MapReduce 被 设计 为 在 可 扩展 的 方式 下 解决 超过 TB 级 数据 处 理 过 程 
中 的 问题 。 应 当 有 一 种 方法 可 以 建立 一 个 性 能 随机 器 数 增加 而 线性 提升 
的 系统 ， 这 就 是 MapReduce 努 力 要 做 到 的 。 它 遵守 分 治 原 则 ， 通 过 将 数 
据 拆 分 到 分 布 式 文件 系统 中 的 不 同 机 器 上 ， 让 服务 器 (CPU 或 新 式 的 内 
核 ) 能 尽快 直接 访问 和 处 理 数 据 。 这 种 方法 的 问题 是 用 户 最 终 需要 合并 
全 局 结果 。 同 样 ，MapReduce 为 解雇 这 个 问题 将 其 内 置 了 。 图 7-1 提 供 了 
这 个 过 程 的 高 层 概 览 。 


下 面 这 张 图 非常 简明 地 展示 了 MapReduce 处 理 数据 的 过 程 。 首 先 它 
会 可 靠 地 将 输入 的 数据 拆 分 成 大 小 合理 的 块 ， 然 后 服务 器 每 次 处 理 一 个 
块 。 一 般 来 说 ， 拆 分 工作 需要 尽 可 能 地 利用 可 用 的 服务 器 和 基础 设施 。 
图 示 中 的 数据 可 以 是 非常 大 的 日 志文 件 ， 处 理 时 被 划分 为 大 小 相等 的 分 
片 ， 这 样 做 非常 适合 处 理 如 Apache 日 志 类 型 的 文件 。 输 入 的 数据 也 可 以 
是 二 进 制 文 件 ， 但 是 此 时 用 户 需 要 实现 自己 的 getSplits() 方法 ， 同 
时 也 有 可 能 需要 涉及 以 下 内 容 。 
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InputFormat 
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图 7-1 MapReduce 过 程 





7.1.2 类 


上 图 也 展示 了 与 Hadoop MapReduce 实 现 相 关 的 一 些 类 。 下 面 介 绍 
它们 的 功能 以 及 HBase 中 提供 的 基于 它们 的 具体 实现 。 


#7 à, 
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Hadoop 0.20.0 版 本 提供 了 一 套 新 的 MapReduce 
API。 这 些 类 在 mapreduce 包 中 ， 之 前 的 类 在 mapred 包 中 。 
旧 的 API 已 经 不 推荐 使 用 了 ， 并 且 原 计划 在 0.21.0 版 本 中 被 废 
弃 ， 不 过 最 终 因为 新 API 的 功能 不 完整 而 搁置 ， 所 以 旧 的 API 
并 没有 被 废弃 。 


HBase 中 也 有 两 个 稍 有 不 同 的 包 。 新 的 API 更 被 社区 支 
持 ， 所 以 基于 它 的 写作 业 不 受 Hadoop 改 动 的 影响 。 本 章 只 介 














绍 新 的 API。 


1. InputFormat 


第 一 个 接触 到 的 类 是 InputFormat 〈 见 图 7-2) ， 它 负责 两 件 事 
情 : 第 一 件 是 拆 分 输入 数据 ， 同 时 返回 一 个 RecordReader 实例 ， 这 个 
实例 定义 了 键 值 对 象 的 类 ， 并 提供 了 next() 方法 来 遍历 输入 的 数据 。 


就 HBase 而 言 ， 它 提供 了 一 组 专用 的 实现 ， 叫 
做 TableInputFormatBase ， 该 实现 的 子 类 是 TableInputFormat 
> TableInputFormatBase 实现 了 其 中 的 大 部 分 功能 ， 但 仍旧 是 抽象 
类 ， 它 的 子 类 TableInputFormat 是 一 个 轻 量 级 的 实体 类 版 本 ， 同 时 也 
被 很 多 我 们 提供 的 例子 和 真实 的 MapReduce 类 使 用 。 





ITTETTEI 


+-getSplits(): InputSplit(0.."} +getSplits(): TableSplit[0.."] 


+createRecordReader(): RecordReader +createRecordReader(): TableRecordReader 


TableSplit =-| TablelnputFormat f- TableRecordReader 


图 7-2 InputFormat 类 的 层次 结构 


这 些 类 提供 了 一 个 扫描 HBase 全 表 的 实现 。 用 户 需 要 提供 一 个 Scan 
Sep: 设置 起 止 行 键 、 添 加 过 滤器 和 指定 版 本 数目 
等 。TableInputFormat 将 表 拆 分 成 大 小 合适 的 块 ， 同 时 交 给 后 面 的 
MapReduce 过 程 处 理 。 如 何 拆 分 表 的 细节 参见 7.1.5 市 。 








2. Mapper 


Mapper 类 构成 了 MapReduce 过 程 的 下 一 个 阶段 ， 同 时 也 是 其 命名 
的 原因 之 一 《〈 见 图 7-3) 。 在 这 一 阶段 中 ， 从 RecordReader 读 到 的 每 一 
个 数据 都 由 一 个 map() 方法 来 处 理 。 这 些 在 图 7-1 中 也 有 介绍 。Mapper 
读 取 一 组 特定 的 键 / 值 对 ， 但 是 可 能 会 输出 其 他 的 类 型 。 这 个 过 程 非常 
便于 将 原始 数据 转化 为 更 有 用 的 数据 类 型 ， 以 做 进一步 处 理 。 





TableMapper IdentityTableMapper 








图 7-3 Mapper 类 的 层次 结构 


HBase 提 供 了 一 个 TableMapper 类 ， 将 键 的 类 型 强制 转换 为 一 
个 ImmutableBytesWritable ， 同 时 将 值 的 类 型 强制 转换 为 Result 类 
型 ， 这 些 构成 了 TableRecordReader 类 返回 的 结果 。 


有 一 个 TableMapper 的 特殊 实现 是 IdentityTableMapper ， 它 也 
是 一 个 展示 如 何 将 自己 想 要 的 功能 添加 到 HBase 提 供 的 类 中 的 比较 好 的 
例子 。TableMapper 类 没有 实现 任何 实际 的 功能 ， 它 只 是 添加 了 键 / 值 
对 的 签名 。IdentityTableMapper 只 是 简单 地 把 键 / 值 对 传 到 下 一 个 处 
理 阶 段 而 已 。 


3. Reducer 


Reducer 阶段 和 类 的 层次 结构 〈 见 图 7-4) 与 之 前 介绍 的 Mapper 阶 
段 十 分 相似 。 这 次 我 们 得 到 了 Mapper 类 的 输出 ， 同 时 这 些 输出 会 经 过 
shuffle 和 sort 处 理 。 


在 Mapper 和 Reducer 阶段 间 的 内 部 shuffle 阶 段 中 ， 每 个 不 同 的 
Map 输 出 的 中 间 结 果 都 会 被 复制 到 Reduce 服 务 器 ， 同 时 sort 阶 段 会 将 所 
有 经 过 suffled (copied) 阶段 处 理 的 数据 进行 联合 排序 ， 这 样 Reducer 
得 到 的 中 间 结 果 就 是 一 个 已 排序 的 数据 集 ， 在 这 个 数据 集中 ， 每 一 个 特 
定 的 键 与 它 所 有 可 能 的 值 关联 在 一 起 。 











Reducer 


TableReducer IdentityTableReducer 


reduce() 








图 7-4 Reducer 类 的 层次 结构 


4. OutputFormat 


最 后 阶段 由 outputFormat 类 处 理 〈 见 图 7-5) 。 它 的 工作 是 将 数据 
持久 化 到 不 同 的 位 置 。 这 里 提供 了 一 些 具 体 实 现 来 允许 结果 能 被 输出 到 
文件 或 者 HBase 表 中 。 输 出 到 HBase 表 中 时 ， 用 户 可 以 使 
用 TableOutputFormat 类 。 它 使 用 TableRecordWriter 类 将 数据 写 到 
特定 的 HBase 表 中 。 


Ropar 


+getRecordWriter(): RecordWriter +getRecordWriter(): TableRecordWriter 
+createOutputCommitter(): OutputCommitter +getOutputCommitter(): TableQutputCommitter 


me N 
i = 


TableRecordWriter TableOutputCommitter 


图 7-5 OutputFormat 类 的 层次 结构 

















同时 也 需要 注意 一 下 基数 。 一 般 情况 下 ， 有 许多 Mapper 将 记录 传 
输 给 Reducer ， 但 是 只 有 一 个 OutputFormat 处 理 它 对 应 的 Reducer 输 
出 。 这 是 最 后 一 个 用 于 处 理 键 / 值 对 并 将 它们 写 到 最 终 存 储 位 置 的 类 ， 

这 个 存储 位 置 可 以 是 文件 或 者 表 。 


Hadoop 类 需要 TableOutputCommitter 类 来 实现 它们 的 功能 。 如 
果 不 需 要 HBase 来 存储 数据 ， 则 它 是 一 个 空 类 ， 并 没有 实现 实际 的 功 
能 。 不 过 其 他 OutputFormat 的 实现 需要 这 个 类 。 


当 创建 作 业 时 ， 和 输出 表 的 名 字 就 已 经 被 指定 了 。 除 此 之 
yt, TableOutputFormat 不 会 增加 其 他 复杂 性 。 其 他 值得 注意 的 是 ， 
表 的 缓冲 区 自动 刷 写 被 关闭 ， 同 时 缓冲 区 由 系统 内 部 自动 管理 。 这 对 提 
re rae ee senor tae he 
汕 的 性 能 。 


7.1.3 支撑 类 
MapReduce 的 支撑 类 与 TableMapReduceUtil 类 一 同 协作 在 HBase 


上 执行 MapReduce 作 业 。 它 有 一 个 静态 方法 能 配置 作业 ， 并 使 作业 可 以 
使 用 HBase 作 为 数据 源 或 目标 。 

















7.1.4 MapReduce 的 执行 地 点 





Hadoop 的 块 备份 策略 对 上 层 用 户 十 分 不 透明 : 这 个 过 程 是 目 动 完成 
的 ， 用 户 不 用 为 其 操心 。HBase 依 靠 这 个 副本 策略 对 上 层 提 供 持久 化 存 
储 。 虽 然 这 些 对 于 上 层 完全 透明 ， 但 是 更 进一步 的 问题 是 ， 这 些 会 如 何 
影响 系统 性 能 ? 


不 论 是 基于 HBase 还 是 Hadoop， 这 个 问题 都 是 用 户 开 始 使 用 
MapReduce 作 业 时 会 产生 的 疑问 。 特 别 是 当 有 大 量 数据 存储 在 HBase 中 
时 ， 系 统 如 何 将 数据 存放 在 需要 它 的 地 方 ? 这 些 都 要 参考 数据 的 位 置 以 
及 HBase 如 何 使 用 Hadoop 文 件 系统 (HDFS) 。 


首先 ， 让 我 们 看 一 下 Hadoop 如 何 处 理 这 些 事情 : MapReduce 文 档 中 
指出 任务 在 靠近 其 数据 的 地 方 执行 。 为 了 达到 这 一 点 ，HDFS 中 的 大 文 
on 的 块 ， 默 认 大 小 是 64 MB (SER ARE A128 MB 或 更 

Jg 








每 块 的 数据 被 指定 到 一 个 map 任 务 处 理 。 这 也 说 明 较 大 的 块 会 减少 
所 需 map 的 数目 ， 因 为 map 的 数目 由 需要 人 处理 的 块 的 数目 决定 。Hadoop 
知道 块 的 位 置 ， 所 以 会 直接 在 其 对 应 位 置 上 运行 map 任 务实 际 上 由 于 
每 个 块 都 有 告 干 副本 ， 副 本 数量 默认 为 3， 框 架 可 以 在 这 3 个 中 任意 选择 
ee 用 于 负载 均衡 ) 。 这 是 MapReduce 保 证 数据 本 地 计算 的 方 
~、 


回 到 HBase， 当 用 户 明 日 这 一 点 后 ， 可 能 会 对 这 种 机 制 如 何在 HBase 上 
起 作用 产生 疑问 。 如 8.2 节 介绍 的 ，HBase 将 数据 存储 在 HDFS 上 ， 存 储 
过 程 对 于 用 户 来 说 是 透明 的 。HBase 通 过 数据 文件 HFile 和 它 的 日 志文 件 
CWAL) 来 实现 。 如 果 用 户 查 看 代码 ， 会 发 现 它 使 用 Hadoop APT 方 法 
FileSystem.create(Path path ) 来 创建 这 些 文件 。 


| 
一 一 如 果 用 户 的 Hadoop 和 HBase 没 有 共用 集群 ， 而 是 彼 
此 分 开 且 相互 独立 ， 此 时 相当 于 运行 一 个 MapReduce 集 群 ， 

作业 不 能 在 相应 的 datanode 上 执行 。 如 果 需 要 任务 在 数据 所 在 


的 位 置 执行 则 必须 提供 相应 的 数据 位 置信 息 ， 所 以 这 种 情况 

















下 HDFS，MapReduce 和 HBase 必 须 使 用 同一 套 集 群 。 





Hadoop 如 何 知道 HBase 中 数据 的 分 布 呢 ? 最 重要 的 就 是 HBase 没 有 
被 频繁 重 局， 同时 日 闻 维 护 操 作 都 在 正 种 按时 运行 。 当 有 新 数据 加 入 
时 ， 合 并 会 重 写 数 据 文件 。 所 有 HDFS 上 的 文件 被 写 入 之 后 都 是 不 可 修 
改 的 。 因 此 ， 数 据 将 被 写 入 新 文件 ， 而 新 文件 数目 也 会 增加 ，HBase 会 
将 多 个 文件 合并 为 一 个 新 的 文件 。 


此 外 ，HDFS 可 以 根据 数据 的 使 用 位 置 智 能 地 放置 数据 的 副本 。 它 
自 带 一 个 副本 放置 策略 ， 该 策略 可 以 在 写 入 数据 时 先 让 数据 写 入 到 辅助 
定位 服务 器 。 收 到 数据 的 节点 先 比 较 自己 的 服务 器 名 称 和 写 数 据 的 程序 
所 在 的 机 器 是 不 是 一 样 ， 如 果 一 样 就 将 数据 写 入 本 地 磁盘 。 然 后 数据 的 
一 个 副本 被 送 到 同一 个 机 架 上 的 另 一 台 服 务 器 ， 另 一 个 送 到 远程 的 机 架 
一 一 假设 用 户 在 HDFS 中 启用 了 机 架 感 知 。 如 果 没 有 启用 ， 额 外 的 副本 
会 被 放置 在 集群 中 负载 最 轻 的 节点 上 。 


如 果 用 户 配 置 了 一 个 更 大 的 副本 数目 ， 更 多 的 副本 会 存在 不 同 的 机 
器 上 。 但 最 重要 的 一 点 是 ， 用 户 可 以 取 到 本 地 的 副本 。 这 就 意味 着 ， 当 
HBase 的 region 服 务 器 长 时 间 没 有 重启 时 ， 表 经 过 major 合 并 之 后 (major 
合并 可 以 由 用 户 手动 触发 或 由 系统 配置 定时 运行 ) ， 表 的 数据 驶 都 会 有 
一 份 本 地 副本 ， 本 地 的 Data Node 也 会 有 region 服 务 器 上 所 需 数据 的 本 地 
副本 。 如 果 用 户 运 行 sScan 和 get 或 者 其 他 操作 ， 用 户 会 得 到 更 好 的 性 能 。 


region 在 负载 均衡 或 服务 器 故障 时 可 能 会 出 现 移动 的 情况 ， 当 这 种 
情况 发 生 时 ， 数 据 可 能 不 在 本 地 了 ， 但 随 着 时 间 的 推移 ， 其 可 能 会 再 次 
移动 到 数据 所 在 地 。master 在 集群 重启 时 会 考虑 到 这 种 情况 : 它 会 把 
region 分 配 到 它 的 原 属 region 服 务 嚣 上。 只 有 当 原 属 服务 器 不 存在 时 才 进 
行 随机 分 配 。 


7.1.5 KT 


当 用 户 使 用 MapReduce 作 业 从 表 中 读 取 数据 时 ， 实 质 上 是 使 
用 TableInputFormat 取得 数据 。 它 符合 MapReduce 框 架 ， 并 重 载 了 公 
有 方法 getSplits() 和 createRecordReader() 。 在 一 个 作业 被 执行 
前 ， 框 架 调用 getSsp1lit() 来 决定 如 何 划 分 块 (chunk) ， 从 而 由 块 数 
目 决 定 映射 任务 的 数目 。 























对 于 HBase 来 说 ，TableInputFormat 基于 用 户 提供 的 Scan 实例 取 
得 所 需要 的 表 信 息 ， 并 且 按 region 来 划分 边界 。 由 于 它 不 能 直接 地 预测 
到 可 选 过 滤器 的 执行 效果 ， 所 以 它 简 单 地 使 用 起 止 键 来 确定 region。 拆 
分 块 的 数目 与 起 止 键 之 间 的 region 数 目 相 等 。 如 果 用 户 没 有 设置 这 两 个 
键 ， 则 所 有 region 都 被 包含 在 其 中 。 


作业 局 动 时 ， 框 架 会 按 拆 分 的 数目 调用 createRecordReader() 
， 并 返回 与 当前 块 对 应 的 TableRecordReader 实例 。 换 句 话 说 ， 
个 TableRecordReader 实例 处 理 一 个 对 应 的 regoin， 读 取 并 遍历 一 个 
region 的 所 有 行 。 

每 一 个 拆 分 也 包含 对 应 region 所 在 服务 器 的 信息 。 正 是 这 个 信息 能 
使 HBase 上 的 MapReduce 作 业 本 地 化 执行 : 框架 会 比较 region 对 应 的 服务 
器 名 ， 如 果 有 任务 tracker 在 对 应 服务 器 上 运行 ， 它 会 挑选 这 个 服务 器 来 
执行 作业 。 因 为 region 服 务 器 与 Data Node 运 行 在 一 个 节点 ， 所 以 扫描 会 
从 本 地 磁盘 读 取 文件 。 


一 一 当 在 HBase 上 运行 MapReduce 时 ， 推 荐 用 户 关闭 预 

测 执行 模式 。 这 样 会 增加 region 和 服务 器 的 负载 ， 同 时 与 本 地 
化 运行 相 违 背 : 预测 作业 在 一 个 不 同 的 机 器 上 运行 ， 因 此 没 

有 本 地 region 服 务 器 ， 这 会 增加 网 络 珊 宽 开 销 。 











7.2 在 HBase 之 上 的 MapReduce 
以 下 将 为 读者 介绍 如 何 结 合 MapReduce 来 使 用 HBase。 用 户 在 使 用 HBase 


作为 数据 源 、 目 标 库 ， 或 者 同时 作为 两 者 来 处 理 数据 之 前 ， 用 户 还 需要 
先 做 一 些 使 用 Hadoop 的 准备 。 


7.2.1 准备 
当 运 行 MapReduce 作 业 所 需 库 中 的 类 不 是 绑 定 在 Hadoop 或 MapReduce 框 
染 中 时 ， 用 户 就 必须 确保 这 些 库 在 作业 执行 之 前 已 经 可 用 。 用 户 一 般 有 
两 个 选择 : 在 所 有 的 任务 节点 上 准备 静态 的 库 ， 或 直接 提供 作业 所 需 的 
所 有 库 。 

静态 配置 


对 于 经 名 使 用 的 库 来 说 ， 最 好 将 这 些 JAR 文 件 安装 在 MapReduce 任 务 
tracker 的 本 地 ， 可 以 通过 以 下 步骤 来 完成 。 


1. 把 JAR 文 件 复制 到 所 有 节点 的 常用 路 径 中 。 


2. 将 这 些 JAR 文 件 的 完整 路 径 写 入 hadoop-env.sh 配置 文件 中 ， 按 
照 如 下 方式 编辑 HADOOP_CLASSPATH 变量 : 














# Extra Java CLASSPATH elements. Optional. 
# export HADOOP_CLASSPATH="< extra entries>:$HADOOP_ CLASSPATH" 





3. 重启 所 有 的 任务 tracker 使 变更 生效 。 


显然 这 个 技术 是 纯 静 态 的 ， 并 且 每 次 变更 ( 即 增加 新 库 ) 都 需要 重启 任 
务 tracker。 如 果 需 要 添加 HBase 的 文 持 ， 至 少 需要 增加 HBase 和 
ZooKeeper 的 JAR 文 件 。 按 照 如 下 方式 编辑 hadoop-env.sh: 





export HADOOP_CLASSPATH="$HBASE_HOME/hbase-0.91.0-SNAPSHOT.jar: \ 
$ZK_HOME/zookeeper -3.3.2.jar:$HADOOP_CLASSPATH" 


pO 


这 里 的 前 提 是 假设 用 户 已 经 定义 了 两 个 $XYZ_HOME 环境 变量 ， 并 在 
环境 变量 中 指出 软件 的 安装 路 径 。 





| 请 注意 ， 这 将 可 以 修复 全 球 范 围 内 任何 指定 的 服务 
器 和 服务 器 上 的 配置 文件 所 需 的 库 。 








所 需 的 特定 版 本 库 被 锁定 的 问题 可 以 通过 动态 配置 来 解决 ， 稍 后 做 解 


FE o 
2. 动态 配置 


在 一 些 情况 下 ， 用 户 希 望 每 个 他 们 运行 的 作业 可 以 使 用 不 同 的 库 ， 
或 者 在 作业 运行 时 能 够 更 新 库 ， 这 种 情况 下 动态 配置 就 非常 有 用 了 。 


针对 这 种 情况 ，Hadoop 有 一 个 特殊 的 功能 : 它 可 以 读 取 操作 目录 中 /lib 
目录 下 包含 的 所 有 库 的 JAR 文 件 。 用 户 可 以 使 用 此 功能 生成 所 谓 

的 “ 胖 ”JAR 文 件 ， 因 为 它们 传输 的 不 仅仅 是 实际 的 作业 代码 ， 还 有 所 有 
需要 的 库 。 这 意味 着 作业 JAR 文 件 更 大 ， 但 从 为 一 方面 来 说 ， 其 中 已 经 
自己 包含 了 处 理 作业 的 完整 的 代码 。 





使 用 Maven 


本 书 中 的 示例 代码 使 用 Maven 来 编译 JAR 文 件 〈 详 情 见 
前 言 的 “编辑 示例 程序 ”一 节 ) 。Maven 不 仅 可 以 帮助 用 户 编 
译 示例 程序 ， 还 可 以 编译 加 强 的 “ 胖 ”JAR 文 件 并 将 其 部 车 到 
MapReduce 框 架 中 。 这 避免 了 编辑 服务 器 端的 配置 文件 。 








Maven 已 经 支持 了 profiles， 这 可 以 帮助 用 户 自 定义 编 
译 过 程 。 本 章 的 pom.xml 利用 这 个 功能 添加 了 一 个 fatjar 
配置 ， 并 将 /lib 目录 下 的 所 有 库 文件 打包 到 了 一 个 最 终 的 作 
业 JAR 中 。 在 这 个 工作 属性 中 ， 一 些 依赖 可 以 将 scope 属性 
定义 为 provided ， 以 使 这 些 文件 不 被 包含 在 上 述 复制 过 程 
中 。 当 一 些 库 在 服务 器 中 已 经 可 用 时 ， 可 以 适当 地 增加 这 
样 的 标记 ， 例 如 ，Hadoop 的 JAR: 


< dependency> 
< groupId>org.apache.hadoop< /groupId> 
< artifactId>hadoop-core< /artifactId> 
< version>@.20-append-r1044525< /version> 
< scope>provided< /scope> 


< /dependency> 





本 书 资料 库 的 根 目录 下 的 父 POM 文 件 定义 了 上 述 信 
轧 ， 此 外 ， 本 章 POM 中 定义 依赖 的 地 方 也 包含 此 信息 。 其 
中 一 个 例子 是 Apache Commons CLI 库 ， 该 库 已 经 是 Hadoop 
的 一 部 分 。 

胖 JAR 配 置 使 用 了 Maven Assembly 插 件 ， 


{Esrc/main/assembly/job.xml 文件 中 配置 了 哪些 文件 应 该 被 
Fo BEE NCEA DIA LE H JAR SCPE CBN kick 


已 提供 的 库 ) 。 为 取代 现 有 的 配置 ， 用 户 可 以 编译 一 
个 “ 瘦 引 AR， 即 一 个 只 包含 作业 类 ， 且 需要 更 新 服务 髓 端 配 
置 来 包含 HBase 和 ZooKeeper 的 JAR， 例 如 : 


< ch67>$ mvn package 





上 述 命令 可 以 编译 一 个 能 够 被 MapReduce 框 架 执 行 的 
JAR， 运 行 时 可 以 使 用 如 下 命令 : 


< ch67>$ hadoop jar target/hbase-book-ch07-1.0.jar 
An example program must be given as the first argument. 
Valid program names are: 

AnalyzeData: Analyze imported JSON 

ImportFromFile: Import from file 


ParseJson: Parse JSON into columns 
ParseJson2: Parse JSON into columns(map only) 





上 述 命 令 列 出 了 所 有 可 能 的 作业 名 称 。 它 使 用 了 
Hadoop Program Driver 类 ， 该 类 由 所 有 已 知 的 作业 类 和 
它们 的 名 称 构成 。Maven 构 建 了 Driver 类 ， 该 类 封装 了 
Program Driver 实例 ， 并 作为 JAR 文 件 的 主要 类 ; 因此 





它 可 以 上 自动 被 Hadoop 的 jar 命令 执行 。 构 建 一 个 “ 胖 汪 AR 需 
Be FAD PB ar: 


< ch67>$ mvn package -Dfatjar 


生成 的 JAR 文 件 附 加 了 一 个 后 缀 来 彼此 区 分 ， 但 这 仅 
MEHRA CHP H MARI S RJAR) : 











< ch67>$ hadoop jar target/hbase-book-ch07-1.0-job 





EMT ASE JARI, EHH a AER 
数 执 行 同 一 个 作业 。 不 同 之 处 在 于 ， 它 包含 了 所 有 需要 的 
库 ， 并 避免 了 配置 在 服务 器 中 发 生 改 变 : 


$ unzip -l target/hbase-book-ch67-1.6-job.Jjar 


Archive: target/hbase-book-ch07-1.0-job.jar 
Length Date Time Name 


© 07-14-11 12:01 META-INF/ 
159 07-14-11 12:01 META-INF/MANIFEST.MF 
© 07-13-11 15:01 mapreduce/ 
© 07-13-11 10:06 util/ 
740 07-13-11 10:06 mapreduce/Driver.class 
3547 07-14-11 12:01 mapreduce/ImportFromFile$ImportMapper.class 
5326 07-14-11 12:01 mapreduce/ImportFromFile.class 


8739 07-13-11 10:06 util/HBaseHelper.class 
© 07-14-11 12:01 lib/ 
16046 05-06-10 16:08 lib/json-simple-1.1.jar 
58160 05-06-10 16:06 lib/commons-codec-1.4.jar 
598364 11-22-10 21:43 lib/zookeeper-3.3.2.jar 
2731371 07-02-11 15:20 lib/hbase-@.91.@-SNAPSHOT. jar 
14837 07-14-11 12:01 lib/hbase-book-ch@7-1.0.jar 


3445231 16 files 





Maven 并 不 是 生成 不 同 作 业 的 JAR 唯 一 的 方法 ， 用 户 也 
可 以 使 用 Apache Ant。 无 论 用 户 使 用 哪 种 方式 编译 JAR， 它 





们 都 需要 包含 必要 的 信息 《只 是 代码 ， 或 代码 及 其 必 备 的 
zak 


另 一 种 动态 提供 必 备 库 的 方式 是 Hadoop MapReduce 框 架 的 libjars 功 
能 。 当 用 户 使 用 GenericoptionsParser 创建 一 个 MapReduce 作 业 时 ， 
可 以 得 到 1ibjar 参数 提供 的 文 持 。 以 下 是 该 参数 类 的 文档 : 





GenericOptionsParser is a utility to parse command line arguments generic 


to the Handoop framework GenericOptions Parser recognizes several standara 
d 


command line arguments, enabling applications to easily specify a namenode 
3 
a jobtracker, additional configuration resources etc. 


Generic Options 
The supported generic options are: 


-conf < configuration file> specify a configuration file 
-D < property=value> use value for given property 
-fs < local|namenode:port> specify a namenode 
-jt < local|jobtracker:port> specify a job tracker 
-files < comma separated list of files> specify comma separated 
files to be copied to themap reduce cluster 
-libjars < comma separated list of jars> specify comma separated 
jar files to include in the classpath. 
-archives < comma separated list of archives> specify comma 
separated archives to be unarchived on the compute machine 
S. 
The general command line syntax is: 
bin/hadoop command [genericOptions] [commandOptions] 





请 仔细 阅读 文档 ， 该 文档 详细 地 解释 了 1ibjars 参数 ， 并 指出 了 怎 
样 在 命令 行 中 使 用 该 参数 。 添 加 libJjars BRAM EF EtMapReducet 
业 失 败 ， 最 终 可 在 任务 的 执行 单元 日 志 中 查看 相关 信息 。 启 动作 业 时 ， 
间 误 也 会 同时 反馈 到 命令 行 中 ， 例 如 : 








$ HADOOP_CLASSPATH=$HBASE_HOME/target/hbase-@.91.@-SNAPSHOT.jar: \ 


$ZK_HOME/zookeeper-3.3.2.jar hadoop jar target/hbase-book-ch07-1.0.jar \ 


ImportFromFile -t testtable -i test-data.txt -c data:json 


11/08/08 11:13:17 INFO mapred.JobClient: Running job: job_201108081021 66 
03 

11/08/08 11:13:18 INFO mapred.JobClient: map 0% reduce 0% 

11/08/08 11:13:29 INFO mapred.JobClient: Task Id : \ 

attempt _201108081021_0003_m_000002_Ə0, Status : FAILED 

java.lang.RuntimeException: java.lang.ClassNotFoundException: \ 

org.apache.hadoop.hbase.mapreduce. TableOutputFormat 

at org.apache.hadoop.conf.Configuration.getClass(Configuration. java: 809) 

at org.apache.hadoop.mapreduce. JobContext. getOutputFormatClass(JobContex 
t. java:197) 

at org.apache.hadoop.mapred.Task.initialize(Task.java:413) 

at org.apache.hadoop.mapred.MapTask.run(MapTask. java: 288) 

at org.apache.hadoop.mapred.Child.main(Child.java:170) 





HADOOP_CLASSPATH 需要 使 用 命令 行 。Driver 类 在 启动 时 需要 访 
问 HBase 和 ZooKeeper 类 ， 解 决 上 述 问题 需要 按照 如 下 方式 添加 1ibjars 
参数 : 





$ HADOOP_CLASSPATH=$HBASE_HOME/target/hbase-@.91.@-SNAPSHOT.jar: \ 


$ZK_HOME/zookeeper-3.3.2.jar hadoop jar target/hbase-bk-ch@7-1.@.jar \ 


ImportFromFile -libjars $HBASE_HOME/target/hbase-@.91.0-SNAPSHOT.jar, \ 


$ZK_HOME/zookeeper-3.3.2.jar -t testtable -i test-data.txt -c data:json 


11/08/08 11:19:38 INFO mapred.JobClient: Running job: job_201108081021 66 
06 

11/08/08 11:19:39 INFO mapred.JobClient: map 0% reduce 0% 

11/08/08 11:19:48 INFO mapred.JobClient: map 100% reduce 0% 

11/08/08 11:19:50 INFO mapred.JobClient: Job complete: job 201108081021 6 
006 





最 终 ，HBase 辅 助 类 TableMapReduceUtil 提供 了 可 以 帮助 用 户 在 作业 
中 通过 代码 动态 添加 依赖 的 JAR 和 配置 文件 的 方法 : 


static void addDependencyJars(Job job) throws IOException; 
static void addDependencyJars(Configuration conf, Class... classes) 
throws IOException; 





用 户 过 去 都 使 用 后 一 种 功能 来 添加 所 需 的 HBase、ZooKeeper 和 作业 类 : 


addDependencyJars(job.getConfiguration(), 
org.apache. zookeeper.ZooKeeper.class, 
job. getMapOutputKeyClass(), 
job. getMapOutputValueClass(), 
job. getInputFormatClass(), 
job. getOutputKeyClass(), 
job. getOutputValueClass(), 
job. getOutputFormatClass(), 
job.getPartitionerClass(), 
job. getCombinerClass()); 








读者 可 以 在 ImportTsv 类 的 源 代码 中 查看 使 用 说 明 : 





public static Job createSubmittableJob(Configuration conf, String[] args) 
throws IOException, ClassNotFoundException { 


Job job = new Job(conf, NAME + "_" + tableName); 


TableMapReduceUtil.addDependencyJars(job) ; 
TableMapReduceUtil.addDependencyJars(job.getConfiguration(), 
com.google.common.base.Function.class /* Guava used by TsvParser */ 
) ; 


return job; 





这 里 首先 调用 addDependencyJars() 方法 添加 作业 和 必要 的 类 ， 
包括 输入 输出 格式 和 键 值 的 类 型 等 。 第 二 个 调用 添加 了 Google Guava 








ee ee ae 需要 注意 的 是 ， 这 个 方法 并 不 
要 用 户 指定 实际 的 JAR 文 件 ， 它 直接 使 用 Java 的 类 加 载 器 进行 加 载 但 
有 可 能 会 找到 相同 的 JAR 文 件 ， 不 过 在 这 里 这 是 无 关 紧要 的 ， 重 要 的 是 
你 可 以 在 Java CLASSPATH 中 访问 该 类 ; 否则 ， 这 些 调用 最 终 会 失败 ， 
并 返回 一 个 ClassNotFoundException 错误 ， 类 似 于 之 前 你 看 到 过 的 
。 用 户 在 一 个 没有 准备 好 的 Hadoop 启 动 中 ， 至 少 需 要 填 
i s 到 命令 行 中 。 





| 
~ 

REUNITE? 胖 JAR 的 优势 在 于 ， 其 包含 
HBase 启 动 过 程 所 有 作业 所 需 的 库 ， 而 另 一 种 方式 则 至 少 需要 
准备 classpath 。 





就 本 书 而 言 ， 我 们 将 使 用 胖 JAR 的 方式 编译 和 运行 
MapReduce 作 业 。 


7.2.2 ”数据 流 问 


随后 ， 我 们 将 使 用 MapReduce 作 业 作 为 过 程 的 一 部 分 ， 该 作业 可 以 
使 用 HBase 进 行 读 取 或 写 入 。 第 一 个 例子 是 使 用 HBase 作 为 数据 流 问 ， 


这 个 例子 是 在 TableOutputFormat 类 的 帮助 下 实现 的 ， 详 情 见 例 7.1。 


O 这个 全 了 中 使 用 的 数据 基于 Dalious ( 
http://delicious.com ) 提供 的 公开 订阅 源 。Arvind Narayanan 使 
用 这 个 订阅 源 收集 了 一 个 简单 的 数据 集合 ， 已 经 发 布 在 他 的 
博客 中 。 


不 是 必须 使 用 这 个 数据 集 ， 或 捕捉 订阅 源 信息 《 
http://feeds.delicious.com/v2/rss/recent ) ; 你 可 以 任意 使 用 其 
他 开源 的 资源 ， 包 括 JSON 格 式 的 数据 记录 。 另 一 方面 ， 
Delicious 的 数据 提供 了 完整 的 Hush 模 式 : 每 个 实体 都 有 链 
接 、 用 户 名 、 时 间 和 类 别 等 。 


本 书 资料 库 中 的 test-data.txt 是 一 个 小 型 公开 数据 集 的 子 
集 。 对 于 测试 来 次 ， 这 个 数据 集 已 经 足够 ， 但 显然 使 用 完整 
的 数据 集 执行 作业 更 好 。 


以 下 是 其 完整 的 代码 ， 包 含 标准 的 模板 排序 。 随 后 的 例子 并 不 会 包 
含 这 些 样板 代码 ， 例 如 ， 命 令 行 参数 解析 。 


例 7.1 MapReduce 作 业 从 一 个 文件 中 读 取 数据 并 写 入 HBase 表 





public class ImportFromFile { 
public static final String NAME = "ImportFromFile";@ 
public enum Counters { LINES } 


static class ImportMapper 
extends Mapper< LongWritable, Text, ImmutableByteswWritable, Writable> fe 


private byte[] family = null; 
private byte[] qualifier = null; 


@Override 
protected void setup(Context context) 
throws IOException, InterruptedException { 
String column = context.getConfiguration().get("conf.column"); 
byte[][] colkey = KeyValue.parseColumn(Bytes.toBytes(column) ); 
family = colkey[@]; 
if (colkey.length > 1) { 
qualifier = colkey[1]; 
} 
} 


@Override 
public void map(LongWritable offset, Text line, Context context)e 
throws IOException { 
try { 
String lineString = line.toString(); 
byte[] rowkey = DigestUtils.md5(lineString);@ 
Put put = new Put(rowkey); 
put.add(family, qualifier, Bytes.toBytes(lineString) );6 
context.write(new ImmutableBytesWritable(rowkey), put); 
context .getCounter(Counters.LINES).increment(1) ; 
} catch (Exception e) { 
e.printStackTrace(); 
} 
} 
} 


private static CommandLine parseArgs(String[] args) throws ParseExcepti 
on {0 
Options options = new Options(); 
Option o = new Option("t", "table", true, 
"table to import into (must exist)"); 
o.setArgName("table-name") ; 
o.setRequired(true) ; 
options.addOption(o); 
o = new Option("c", "column", true, 
"column to store row data into (must exist)"); 
o.setArgName("family: qualifier") ; 
o.setRequired(true) ; 
options.addOption(o); 
o = new Option("i", "input", true, 
"the directory or file to read from"); 
o.setArgName("path-in-HDFS") ; 
o.setRequired(true) ; 
options.addOption(o); 
options.addOption("d", "debug", false, "switch on DEBUG log level"); 
CommandLineParser parser = new PosixParser(); 


CommandLine cmd = null; 
try { 
cmd = parser.parse(options, args); 
} catch (Exception e) { 
System.err.println("ERROR: ”+ e.getMessage() + "\n"); 
HelpFormatter formatter = new HelpFormatter() ; 
formatter.printHelp(NAME + " ", options, true); 
System.exit(-1); 
} 
return cmd; 
} 
public static void main(String[] args) throws Exception { 
Configuration conf = HBaseConfiguration.create(); 
String[] otherArgs = 
new GenericOptionsParser(conf, args).getRemainingArgs();® 
CommandLine cmd = parseArgs(otherArgs); 
String table = cmd.getOptionValue("t"); 
String input = cmd.getOptionValue("i"); 
String column = cmd.getOptionValue("c"); 
conf.set("conf.column", column); 
Job job = new Job(conf, "Import from file 
+table);e 
job.setJarByClass(ImportFromFile.class); 
job.setMapperClass(ImportMapper.class) ; 
job.setOutputFormatClass(TableOutputFormat.class); 
job. getConfiguration().set(TableOutputFormat .OUTPUT_TABLE, table); 
job.setOutputKeyClass(ImmutableBytesWritable.class); 
job.setOutputValueClass(Writable.class); 
job.setNumReduceTasks(@) 50 
FileInputFormat.addInputPath(job, new Path(input) ); 


+ input + " into table " 


System.exit(job.waitForCompletion(true) ? © : 1); 





@ 为 后 续 的 使 用 定义 一 个 作业 名 。 


全 定义 mapper 类 ， 继 承 白 Hadoop 己 有 的 类 。 
© map() 函数 将 InputFormt 提供 的 键 值 对 转化 为 了 


OutputFormat 需要 的 类 型 。 


人 @ 行 键 是 经 过 MD5 散 列 之 后 随机 生成 的 键 值 。 
加 存储 原始 数据 到 给 定 的 表 中 的 一 列 。 


@@ 使 用 Apache Commons CLI 类 解析 命令 行 参数 。 这 些 已 经 是 HBase 
的 一 部 分 ， 因 此 用 户 可 以 很 方便 地 处 理 作业 的 参数 。 


人 @ 传 递 命令 行 参 数 到 解析 器 中 ， 并 优先 解析 “-Dxyz” 属 性 。 
全 使 用 特定 的 类 定义 作业 。 
全 这 是 一 个 只 包 仿 map 阶段 的 作业 ， 框 架 会 直接 跳 过 reduce 阶 段 。 


用 户 在 代码 的 main() 函数 中 进行 了 设置 ， 在 运行 MapReduce 作 业 
之 前 ， 首 先 解析 命 令 行 以 获取 目标 表 名 、 目 标 列 和 输入 文件 的 名 称 。 虽 
然 这 里 可 以 便 编 码 ， 但 是 最 好 还 是 写 一 段 文 持 可 配置 的 代码 。 


下 一 步 是 构建 作业 实例 ， 通 过 命令 行 和 已 确定 的 参数 (如 类 名 ) 指 
定 变 量 的 细节 。 其 中 的 一 个 细节 是 指定 mapper 类 ， 将 其 设置 
为 ImportMapper 。 这 个 类 与 main 类 在 同一 个 源 代 码 文件 中 ， 并 定义 了 
作业 在 map 阶 段 要 完成 的 逻辑 。 


Main() 函数 的 代码 指定 了 输出 格式 的 类 ， 即 前 面 描述 过 的 
TableOutputFormat 类 。 这 个 类 由 HBase 提 供 ， 并 能 够 方便 地 同一 张 
表 中 写 入 数据 ， 键 的 类 型 被 该 类 隐 式 地 设置 
AImmutableByteswWritable 类 ， 值 被 隐 式 地 设置 为 Nritable 的 类 。 


用 户 在 执行 作业 前 ， 最 好 先 创 建 一 个 目标 表 ， 例 如 ， 使 用 HBase Shell 来 
创建 目标 表 : 

















hbase(main):001:@> create 'testtable', ‘data' 


© row(s) in 0.5330 seconds 





一 旦 准备 好 了 表 ， 用 户 就 可 以 运行 该 作业 了 : 


$ hadoop dfs -put /projects/private/hbase-book-code/ch07/test-data.txt. 


hadoop jar target/hbase-book-ch07-1.0-job.jar ImportFromFile \ 


-t testtable -i test-data.txt -c data:json 


11/08/08 12:35:01 INFO mapreduce.TableOutputFormat: \ 
Created table instance for testtable 
11/08/08 12:35:01 INFO input.FileInputFormat: Total input paths to proces 


S 1 


11/08/08 :35:62 INFO mapred.JobClient: Running job: job_201108081021 66 
07 

11/08/08 35:03 INFO mapred.JobClient: map 6% reduce 0% 

11/08/08 2:35:10 INFO mapred.JobClient: map 100% reduce 0% 

11/08/08 :35:12 INFO mapred.JobClient: Job complete: job 201108081021 6 
007 





第 一 个 命令 是 hadoop dfs -put ,该 命令 将 样本 数据 集合 存储 到 HDFS 
的 用 户 目 录 中 。 第 二 个 命令 则 可 以 运行 这 个 作业 ， 作 业 的 完成 需要 一 段 
时 间 。 使 用 默认 的 TextInputFormat 类 读 取 数据 ， 这 个 类 是 由 Hadoop 
及 其 MapReduce 框 架 提 供 的 。 这 个 输入 格式 能 够 读 取 用 换行 符 换 行 的 文 
本 文件 。 每 读 取 一 行 都 会 调用 一 次 指定 的 mapper 类 的 map() 方法 ， 这 将 
触发 ImportMapper.map() 函数 。 








如 例 7.1 所 示 ，ImportMapper 类 定义 了 两 个 方法 ， 这 两 个 方法 重 载 
了 父 类 Mapper ， 方 法 名 均 相 同 。 





重 载 中 存在 的 问题 


强烈 推荐 在 重 载 的 方法 中 添加 @override 的 注释 ， 这 
样 错 误 的 标签 在 编译 时 会 被 检查 出 来 。 否 则 ， 隐 了 式 的 
map() 与 reduce() 方法 会 被 调用 ， 并 实现 恒 等 功 能 。 例 
如 ， 以 下 reduce() 方法 : 





public void reduce(Writable key, Iterator< Writable> values, 
Context context) throws IOException, InterruptedException { 





上 述 方法 看 起 来 正确 ， 实 则 不 然 ， 其 实 并 没有 重 
载 Reducer 类 的 reduce( ) 方法 ， 而 只 是 定义 了 reduce() 
方法 的 一 个 多 态 。MapReduce 框 架 会 忽略 这 个 方法 ， 并 执 
行 由 Reducer 类 提供 的 默认 实现 。 





客 其 原因 ， 实 际 应 该 标记 的 方法 应 该 是 : 


protected void reduce(KEYIN key, Iterable 


< VALUEIN> values, \ 
Context context) throws IOException, InterruptedException 





这 是 常见 错误 ， 在 这 里 Iterable 被 错误 地 蔡 换 成 了 
Iterator 类 。 在 任务 执行 发 生 奇怪 的 行为 之 前 ， 在 你 的 代 
码 中 为 重 载 的 方法 添加 @override 注释 能 够 帮助 用 户 在 编 
译 的 时 候 抛 出 错误 “〈 用 户 最 好 在 后 台 完 成 IDE 检 查 ) 。 将 注 
释 添 加 到 方法 的 前 面 ， 例 如 : 





@Override 
public void reduce(Writable key, Iterator< Writable> values, 
Context context) throws IOException, InterruptedException { 











FALE EE AIDES) eA yR, (Hia 
会 抛 出 如 下 错误 : 





[INFO] = s8- sss e ese ee ee ee 
[ERROR] BUILD FAILURE 


(INFO |seocehescseosereceseeereacse secs a e a a a 
[INFO] Compilation failure 
che7/src/main/java/mapreduce/InvalidReducerOverride.java:[18,4] method do 
es not override or 
implement a method from a supertype 





ImportMapper 类 的 重 载 的 setup() 方法 只 会 在 框架 初始 化 该 类 时 
调用 一 次 。 在 这 个 例子 中 ， 它 主要 被 用 于 将 指定 的 列 信 息 解 析 为 列 族 和 
列 限定 符 。 


这 个 类 中 的 map() 才 是 执行 实际 工作 的 实体 ， 它 会 被 输入 的 文本 文 
件 中 的 每 一 行 调用 ， 每 一 行 都 包含 了 一 个 JSON 格 式 的 记录 。 这 上段 代码 
会 使 用 一 行 数据 的 MD5 散 列 值 来 创建 一 个 HBase 行 键 ， 然 后 使 用 HBase 
提供 的 名 为 data:json 的 列 存储 一 行 的 内 容 。 


这 个 例子 通过 TableOutputFormat 类 使 用 了 隐 式 的 写 缓冲 区 。 调 
用 context.write() 方法 时 ， 该 方法 内 部 会 传 入 给 定 的 Put 实例 并 调 
用 table .put() 。 在 作业 结束 前 ，TableOutputFormat 会 主动 调 
用 flushCommits() 以 保存 仍 就 驻 留 在 写 绥 冲 区 的 数据 。 


一 map() 方法 可 以 通过 写 Put 实例 来 存储 输入 数据 ， 
用 户 也 可 以 通过 写 Delete 实例 来 删除 目标 表 中 的 数据 。 这 就 
是 设置 作业 输出 键 的 类 型 为 Writable 接口 ， 而 并 非 显 式 的 
Put 类 的 原因 。 





TableOutputFormat 当前 仅 能 处 理 Put 与 Delete 实 
例 ， 将 消息 设置 为 除 Put Delete 之 外 的 实例 都 会 导致 抛 出 


一 个 IOException 异常 。 














最 后 ， 请 注意 作业 在 没有 reduce 阶 段 的 情况 下 ，map 阶 段 是 怎样 工作 
的 。 这 是 相当 典型 的 HBase 与 MapReduce 作 业 结 合 : 由 于 数据 是 存储 在 
排序 表 中 的 ， 并 且 每 行 数据 都 拥有 唯一 的 行 键 ， 用 户 可 以 在 流程 中 避免 
更 消耗 的 sort、shuffle 和 reduce 阶 段 。 


7.2.3 Ate 


将 数据 导入 到 表 中 之 后 ， 我 们 可 以 使 用 其 中 包含 的 数据 来 解析 
JSON 记 录 ， 并 从 中 提取 信息 。 这 里 完全 使 用 了 TableInputFormat 
类 ， 恰 好 对 应 了 TableOutputFormat 。 在 MapReduce 处 理 过 程 中 ， 它 
以 一 张 表 为 输入 。 例 7.2 使 用 了 已 提供 的 InputFormat 类 。 


例 7.2 MapReduce 作 业 读 取 已 导入 的 数据 并 解析 








static class AnalyzeMapper extends TableMapper< Text, IntWritable> {e 


private JSONParser parser = new JSONParser(); 
private IntWritable ONE = new IntWritable(1); 


@Override 
public void map(ImmutableBytesWritable row, Result columns, Context cont 
ext) 
throws IOException { 
context.getCounter(Counters.ROWS) .increment(1) ; 
String value = null; 
try { 
for (KeyValue kv : columns.list()) { 
context.getCounter(Counters.COLS).increment(1); 
value = Bytes.toStringBinary(kv.getValue()); 
JSONObject json = (JSONObject) parser.parse(value) ; 
String author = (String) json.get("author");@ 
context.write(new Text(author), ONE); 
context.getCounter(Counters.VALID) .increment(1) ; 


} catch (Exception e) { 
e.printStackTrace(); 
System.err.println("Row: ”+ Bytes.toStringBinary(row.get()) + 
", JSON: " + value); 
context. getCounter(Counters.ERROR).increment(1); 


static class AnalyzeReducer 


extends Reducer< Text, IntWritable, Text, IntwWritable> {e 


@Override 
protected void reduce(Text key, Iterable< IntwWritable> values, 
Context context) throws IOException, InterruptedException { 
int count = @; 
for (IntWritable one : values) count++3;@ 
context.write(key, new IntwWritable(count) ); 
} 
} 


public static void main(String[] args) throws Exception { 


Scan scan = new Scan();e 
if (column != null) { 
byte[][] colkey = KeyValue.parseColumn(Bytes.toBytes(column) ); 
if (colkey.length > 1) { 
scan.addColumn(colkey[@], colkey[1]); 
} else { 
scan.addFamily(colkey[@]); 
} 
} 


Job job = new Job(conf, "Analyze data in " + table); 

job.setJarByClass(AnalyzeData.class); 
TableMapReduceUtil.initTableMapperJob(table, scan, AnalyzeMapper.class, 

Text.class, IntWritable.class, job); 

job. setReducerClass(AnalyzeReducer.class) ; 

job.setOutputKeyClass(Text.class);o 

job. setOutputValueClass(IntWritable.class) ; 

job.setNumReduceTasks(1) ; 

FileOutputFormat.setOutputPath(job, new Path(output) ); 


System.exit(job.waitForCompletion(true) ? © : 1); 





O4k AO ENTableMapper 类 ， 设 置 用 户 自己 的 输出 键 值 类 


AS 
外 解析 JSON 数 据 ， 提 取 编 辑 用 户 ， 并 统计 发 生 次 数 。 


全 拓展 一 个 Hadoop Reducer 类 ， 并 指定 适当 的 类 型 。 


四 统计 发 生 次 数 ， 并 计算 其 总 和 。 

加 创建 并 配置 一 个 Scan 实例 。 

@ 使 用 提供 的 库 来 设置 表 的 map 阶 段 。 

@ 使 用 常规 的 Hadoop 语 法 来 配置 reduce 阶 段 。 

这 个 作业 运行 了 一 个 完整 的 MapReduce 过 程 ，map 阶 段 主要 负责 从 
源 表 中 读 取 JSON 数 据 ，reduce 阶 段 主 要 负责 对 每 个 用 户 做 聚合 统计 。 这 
个 例子 与 Hadoop 提 供 的 WordCount 例子 非常 相似 ，mapper 负 责 记录 统 


计 值 ONE ，reducer 负 责 对 每 个 键 做 聚合 操作 ， 例 7.2 操 作 的 键 是 编辑 用 户 
(Author) 。 在 命令 行 上 按照 如 下 方式 执行 作业 : 





$ hadoop jar target/hbase-book-ch67-1.6-job.Jjar AnalyzeData \ 


-t testtable -c data:json -o analyzel 


11/08/08 236: mapred.JobClient: Running job: job_201108081021 66 
21 

11/08/08 236: mapred.JobClient: map 0% reduce 0% 

11/08/08 236: mapred.JobClient: map 100% reduce 0% 

11/08/08 :36 : mapred.JobClient: map 100% reduce 100% 

11/08/08 :36 : mapred.JobClient: Job complete: job_201108081021 6 
021 

11/08/08 :36: mapred.JobClient: Counters: 19 


11/08/08 :36: mapred.JobClient: mapreduce.AnalyzeData$Counters 
11/08/08 :36: mapred.JobClient: ROWS=993 

11/08/08 :36: mapred.JobClient: COLS=993 

11/68/68 :36 : mapred.JobClient: VALID=993 








这 个 例子 的 结果 是 包含 每 个 编辑 用 户 的 统计 列表 ， 并 且 可 以 通过 命令 行 
方式 进行 访问 ， 例 如 ，hadoop dfs -text 命令 : 


$ hadoop dfs -text analyze1/part-r-66666 


16Ssr 
13tohl 
14bcps 
21721725 
2centime 
33rpm 





这 个 例子 展示 了 怎样 使 用 TableMapReduceUtil 类 ， 通 过 使 
用 TableMapReduceUtil 的 静态 方法 可 以 快速 配置 一 个 作业 ， 并 附带 必 
要 的 类 。 由 于 作业 需要 reduce 阶 段 ，main() 函数 代码 添加 了 必要 的 
Reducer 类 ， 并 在 没有 其 他 特殊 指定 (本 例 中 是 TextOutputFormat 
JE) 的 情况 下 隐 式 地 使 用 默认 值 。 


显然 ， 这 是 一 个 非常 简单 的 例子 ， 实 际 上 用 户 不 得 不 执行 更 多 的 分 
析 处 理 。 但 即便 如 此 ， 例 子 所 展现 的 模式 与 之 前 仍 类 似 : 用 户 从 表 中 读 
取 数 据 ， 提 取 必 要 信息 ， 最 终 将 结果 输出 到 一 个 特定 目标 。 


7.2.4 ”数据 源 与 数据 流 问 


如 上 节 所 描述 的 ， 一 个 MapReduce 作 业 中 的 源 和 目标 都 可 以 是 
HBase 表 ， 但 也 有 可 能 在 一 个 作业 中 同时 使 用 HBase 作 为 输入 和 输出 。 
换 句 话说 ， 第 三 类 的 MapReduce 模 板 同 时 使 用 HBase 表 作为 输入 与 输 
出 。 这 里 需要 将 TableInputFormat 和 TableOutputFormat 类 设置 到 
E 的 作业 配置 项 中 。 如 前 所 述 ， 这 意味 着 不 同 的 键 值 类 型 ， 如 例 7.3 

示 。 




















例 7.3 MapReduce 作 业 解 析 每 行 数据 为 大 干 列 





static class ParseMapper 
extends TableMapper< ImmutableBytesWritable, Writable> { 


private JSONParser parser = new JSONParser(); 
private byte[] columnFamily = null; 


@Override 
protected void setup(Context context) 
throws IOException, InterruptedException { 
columnFamily = Bytes.toBytes( 
context.getConfiguration().get("conf.columnfamily") ) ; 


} 


@Override 
public void map(ImmutableBytesWritable row, Result columns, Context con 
text) 
throws IOException { 
context.getCounter(Counters.ROWS).increment(1) ; 
String value = null; 
try { 
Put put = new Put(row.get()); 
for (KeyValue kv : columns.list()) { 
context.getCounter(Counters.COLS).increment(1) ; 
value = Bytes.toStringBinary(kv.getValue()); 
JSONObject json = (JSONObject) parser.parse(value) ; 
for (Object key : json.keySet()) { 
Object val = json.get(key); 
put.add(columnFamily, Bytes.toBytes(key.toString()),@ 
Bytes.toBytes(val.toString())); 


} 
} 
context.write(row, put); 
context .getCounter(Counters.VALID) .increment(1) ; 
} catch (Exception e) { 
e.printStackTrace(); 
System.err.println("Error: " + e.getMessage() + ", Row: 
Bytes.toStringBinary(row.get()) + ", JSON: " + value); 
context. getCounter(Counters.ERROR) .increment(1) ; 


} 
} 
} 


public static void main(String[] args) throws Exception { 


Scan scan = new Scan(); 
if (column != null) { 
byte[][] colkey = KeyValue.parseColumn(Bytes.toBytes(column)); 


if (colkey.length > 1) { 
scan.addColumn(colkey[@], colkey[1]); 
conf.set("conf.columnfamily", Bytes.toStringBinary(colkey[@]));@ 
conf.set("conf.columnqualifier", Bytes.toStringBinary(colkey[1])); 

} else { 
scan.addFamily(colkey[@]); 
conf.set("conf.columnfamily", Bytes.toStringBinary(colkey[@])); 

} 


Job job = new Job(conf, "Parse data in " + input + ", write to " + outpu 
t); 
job.setJarByClass(ParseJson.class); 
TableMapReduceUtil.initTableMapperJob(input, scan, ParseMapper.class,e 
ImmutableBytesWritable.class, Put.class, job); 
TableMapReduceUtil.initTableReducerJob(output,@ 
IdentityTableReducer.class, job); 


System.exit(job.waitForCompletion(true) ? © : 1); 





@ 将 顶层 的 JSON 记 录 的 键 存储 为 列 ， 其 值 的 集合 存储 为 列 值 。 
人 @ 在 mapper 的 配置 实例 中 存储 列 族 以 备 后 用 。 

全 使 用 通用 方法 设置 map 阶 段 的 细节 。 

全 配置 一 个 reducer 实 例 用 于 存储 解析 后 的 数据 。 


这 个 例子 使 用 通用 方法 配置 map 阶 段 和 reduce 阶 段 ， 并 用 到 了 
ParseMapper 类 ， 这 个 类 用 于 从 一 行 原 始 JSON 数 据 中 提取 信息 ， 还 使 
用 J identity tableReducer 居 将 数据 存储 到 目标 表 。 请 注意 ， 源 表 
与 目标 表 可 以 是 相同 的 。 用 户 可 以 通过 以 下 命令 行 提交 作业 : 








$ hadoop jar target/hbase-book-ch07-1.0-job.jar ParseJson \ 


-i testtable -c data:json -o testtable 


11/08/08 17:44:33 INFO mapreduce.TableOutputFormat: \ 

Created table instance for testtable 

11/08/08 17:44:33 INFO mapred.JobClient: Running job: job_201108081021 66 
26 

11/08/08 17:44:34 INFO mapred.JobClient: map 0% reduce 0% 

11/08/08 17:44:41 INFO mapred.JobClient: map 100% reduce 0% 

11/08/08 17:44:50 INFO mapred.JobClient: map 100% reduce 100% 

11/08/08 17:44:52 INFO mapred.JobClient: Job complete: job 201108081021 6 


026 





这 个 百分比 表示 map 阶 段 与 reduce 阶 段 已 经 完成 ， 并 且 整 个 作业 也 
已 经 完成 。 使 用 IdentityTableReducer 类 存储 数据 并 不 是 必需 的 ， 
实际 上 ， 只 需要 在 代码 中 增加 一 行 就 可 以 让 作业 只 拥有 map 阶 段 。 例 7.4 
展示 了 需要 增加 的 一 行 代码 。 


例 7.4 MapReduce 作 业 解 析 每 行 数 据 为 徊 干 列 〈 仅 限 map 阶 段 ) 





Job job = new Job(conf, "Parse data in " + input + ", write to " + output 

+"(maponly)") ; 

job.setJarByClass(ParseJson2.class); 

TableMapReduceUtil.initTableMapperJob(input, scan, ParseMapper.class, 
ImmutableBytesWritable.class, Put.class, job); 

TableMapReduceUtil.initTableReducerJob(output, 
IdentityTableReducer.class, job); 


job.setNumReduceTasks(@) ; 








用 户 可 以 从 命令 行 展 示 的 正在 运行 的 作业 中 看 出 reduce 阶 段 已 经 被 
跳 过 了 : 


$ hadoop jar target/hbase-book-ch07-1.0-job.jar ParseJson2 \ 


-i testtable -c data:json -o testtable 


11/08/08 18:38:10 INFO mapreduce.TableOutputFormat: \ 

Created table instance for testtable 

11/08/08 18:38:11 INFO mapred.JobClient: Running job: job_201108081021 66 
29 

11/08/08 18:38:12 INFO mapred.JobClient: map 0% reduce 0% 

11/08/08 18:38:20 INFO mapred.JobClient: map 100% reduce 0% 

11/08/08 18:38:22 INFO mapred.JobClient: Job complete: job 201108081021 6 
029 








reduce 阶 段 一 直 显 示 为 0%， 直 到 作业 完成 。 用 户 可 以 使 用 Hadoop 
MapReduce 的 UI 来 确认 已 执行 的 作 业 确 实 没 有 reduce 阶 段 。 跳 过 reduce 
阶段 的 优点 是 可 以 更 快 地 完成 作业 ， 这 是 由 于 框架 不 需要 增加 额外 的 数 
据 处 理工 作 。 


这 两 个 不 同 的 ParseJson 作 业 的 作用 相同 ， 用 户 可 以 通过 HBase Shell 
查看 其 结果 由 于 展示 空间 的 缘故 ， 省 略 重复 的 行 键 ) : 








hbase(main):001:0> scan 'testtable' 


\xFB!Nn\x8F\x89}\xD8\x91+\xB909\xB3E\xD@ 
column=data: author, timestamp=1312821497945, value=bookrdr3 


column=data:comments, timestamp=1312821497945, 
value=http: //delicious.com/url1/409839abddbce807e4dbe07bF7d9cd7ad 
column=data:guidislink, timestamp=1312821497945, value=false 
column=data:id, timestamp=1312821497945, 
value=http: //delicious.com/url/409839abddbce807e4dbe07bFf7d9cd7ad#bookr 
dr3 
column=data: link, timestamp=1312821497945, 
value=http://sweetsassafras.org/2008/01/27/how-to-alter-a-wool-sweate 


column=data:updated, timestamp=1312821497945, 
value=Mon, @7 Sep 2009 18:22:21 +0000 


993 row(s) in 1.7070 seconds 





这 个 导入 过 程 利用 了 HBase 文 持 任意 列 名 的 特点 : JSON 的 键 被 转化 
为 列 限 定 待 ， 并 形成 了 新 的 一 列 。 


7.2.5” 自 定义 处 理 


用 户 并 非 必须 使 用 HBase 提 供 的 类 来 读 写 表 数据 ， 实 际 上 这 些 类 非 
常 轻 量 级 并 有 旦 仪 起 到 了 辅助 类 的 作用 。 例 7.5 改 变 了 前 面 的 代码 ， 以 将 
己 解 析 的 JSON 数 据 拆 分 到 两 张 不 同 的 目标 表 中 ， 链 接 和 它 对 应 的 值 存 
储 到 了 一 张 名 为 1inktable 的 独立 的 表 中 ， 而 其 他 列 则 存储 到 了 名 
为 infotable 的 表 中 。 











例 7.5 MapReduce 作 业 解 析 每 行 数据 为 知 干 列 





static class ParseMapper 
extends TableMapper< ImmutableByteswWritable, Writable> { 


private HTable infoTable = null; 

private HTable linkTable = null; 

private JSONParser parser = new JSONParser(); 
private byte[] columnFamily = null; 


@Override 
protected void setup(Context context) 
throws IOException, InterruptedException { 


infoTable = new HTable(context.getConfiguration(), 
context.getConfiguration().get("conf.infotable"));@ 
infoTable.setAutoFlush(false) ; 
linkTable = new HTable(context.getConfiguration(), 
context.getConfiguration().get("conf.linktable")); 
linkTable.setAutoFlush(false) ; 
columnFamily = Bytes.toBytes( 
context.getConfiguration().get("conf.columnfamily") ) ; 
} 
@Override 
protected void cleanup(Context context) 
throws IOException, InterruptedException { 
infoTable.flushCommits(); 
linkTable.flushCommits();@ 


} 


@Override 
public void map(ImmutableBytesWritable row, Result columns, Context 
ext) 
throws IOException { 
context.getCounter(Counters.ROWS) .increment(1) ; 
String value = null; 
try { 
Put infoPut = new Put(row.get()); 
Put linkPut = new Put(row.get()); 
for (KeyValue kv : columns.list()) { 
context.getCounter(Counters.COLS).increment(1); 
value = Bytes.toStringBinary(kv.getValue()); 
JSONObject json = (JSONObject) parser.parse(value) ; 
for (Object key : json.keySet()) { 
Object val = json.get(key); 
if ("link".equals(key)) { 
linkPut.add(columnFamily, Bytes.toBytes(key.toString()), 
Bytes.toBytes(val.toString())); 
} else { 
infoPut.add(columnFamily, Bytes.toBytes(key.toString()), 
Bytes.toBytes(val.toString())); 
} 
} 


} 
infoTable.put(infoPut); © 


linkTable.put(linkPut); 
context. getCounter(Counters.VALID).increment(1); 
} catch (Exception e) { 
e.printStackTrace(); 
System.err.printlin("Error: + e.getMessage() + ", Row: + 
Bytes.toStringBinary(row.get()) + ", JSON: + value); 
context. getCounter(Counters.ERROR).increment(1); 


cont 


public static void main(String[] args) throws Exception { 


conf.set("conf.infotable", cmd.getOptionValue("o"));@ 
conf.set("conf.linktable", cmd.getOptionValue("1")); 


Job job = new Job(conf, "Parse data in " + input + ", into two tables"); 

job.setJarByClass(ParseJsonMulti.class) ; 

TableMapReduceUtil.initTableMapperJob(input, scan, ParseMapper.class, 
ImmutableBytesWritable.class, Put.class, job); 

job. setOutputFormatClass(NullOutputFormat.class);6 

job. setNumReduceTasks(@) ; 

System.exit(job.waitForCompletion(true) ? © : 1); 








Osetup() 方法 中 创建 并 配置 两 张 目 标 表 。 
男 当 任务 完成 时 ， 刷 新 所 有 挂 起 的 提交 。 





全 保存 已 解析 的 数据 到 两 张 不 同 的 表 中 。 
他 在 mapper 的 配置 实例 中 存储 表 名 以 备 后 用 。 
全 设置 框架 会 忽略 的 输出 格式 。 


WA 


a 
a ` + 
wW a 


C 用 户 需 要 创建 两 张 表 ， 请 使 用 HBase Shell 进 行 以 下 
操作 : 





hbase(main):001:@> create ‘infotable', 'data' 


hbase(main) :@02:@> create ‘linktable', 'data' 





在 当前 例子 中 ， 这 两 张 表 将 会 被 用 作 目 标 存储 表 。 





通过 如 下 命令 行 执 行 作 业 ， 并 忽略 输出 丹 容 : 


$ hadoop jar target/hbase-book-ch@7-1.0-job.jar ParseJsonMulti \ 


-i testtable -c data:json -o infotable -1 linktable 


11/08/08 21:13:57 INFO mapred.JobClient: Running job: job_201108081021 66 
33 

11/08/08 21:13:58 INFO mapred.JobClient: map 0% reduce 0% 

11/08/08 21:14:06 INFO mapred.JobClient: map 100% reduce 0% 

11/08/08 21:14:08 INFO mapred.JobClient: Job complete: job 201108081021 6 
633 





到 目前 为 止 ， 这 类 似 于 之 前 解析 JSON 的 示例 ， 所 不 同 的 是 结果 表 
及 其 内 容 。 用 户 可 以 在 作业 完成 后 使 用 HBase Shell 和 扫描 命令 罗列 内 
容 。 用 户 可 以 从 中 看 出 链接 dink) 表 只 包含 了 链接 ， 而 信息 (info) 表 
则 包含 了 原 JSON 数 据 的 剩余 字段 。 


用 户 可 以 通过 自行 编写 的 MapReduce 代 码 来 控制 作业 的 执行 内 容 。 
例如 ， 用 户 可 以 在 存储 组 合 结果 的 不 同 表 中 得 询 数据 。 用 户 从 哪里 读数 
据 和 向 哪里 写 数据 是 不 受 限 制 的 。HBase 提 供 的 类 是 辅助 类 ， 或 多 或 少 
地 服务 了 大 量 的 用 例 。 如 果 用 户 发 现 了 它们 功能 上 的 限制 ， 可 以 简单 地 
拓展 它们 ， 或 直接 通过 MapReduce 的 API 实 现 可 以 以 任何 形式 访问 HBase 
的 代码 。 





第 8 草 ARN 


对 于 高 级 用 户 或 乐于 尝试 的 初级 开发 者 来 说 ， 充 分 理解 他 们 所 选择 
系统 的 内 部 运行 机 制 是 一 件 很 有 益处 的 事情 。 本 章 将 深入 介绍 HBase 各 
个 组 成 部 分 以 及 它们 之 间 如 何 协同 工作 。 


8.1 数据 得 找 和 传输 


我 们 详细 分 析 架 构 前 ， 会 首先 介绍 典型 的 RDBMS 和 其 他 非 关 系 型 
数据 库 底层 存储 结构 之 间 的 不 同 。 我 们 会 重点 介绍 B 树 和 B+ 树  ， 这 两 
种 数据 结构 被 关系 型 存储 引擎 广泛 采用 ， 同 时 还 有 LSM 树 (Log- 
Structured Merge Tree) ， 它 在 某 种 程度 上 构成 了 BigTable 的 底层 存储 
架构 ， 这 些 曾 在 1.4 节 中 讨论 过 。 


‘eh 
一 人 请 注意 ，RDBMS 所 使 用 的 存储 架构 并 不 局 限于 B 
树 ， 也 不 是 所 有 NoSQL 人 解决 方案 采用 的 架构 都 与 RDBMS 不 
同 。 你 将 会 看 到 各 种 各 样 的 技术 被 组 合 到 一 起 ， 同 时 它们 又 
服务 于 一 个 共同 的 目标 : 为 当前 的 问题 提供 最 好 的 存储 策 

略 。 








8.1.1 B+ 树 





B+ 树 的 一 些 特性 使 其 能 够 通过 主键 对 记录 进行 高 效 插入 、 碍 找 以 
及 删除 。 它 表示 为 一 个 动态 、 多 层 并 有 上 下 界 的 索引 。 同 时 要 注意 维护 
每 一 段 (也 被 称 作 页 表 〉 所 包含 的 主键 数目 。 分 段 B+ 树 的 效果 远 好 于 
二 又 树 的 数据 划分 ， 其 大 大 减少 了 得 询 特定 主键 所 需 的 IO 操作 。 


除 此 以 外 ，B+ 树 能 够 提供 高 效 的 范围 扫描 功能 ， 这 得 将 于 它 的 叶 
万 点 相互 连接 并 且 按 主键 有 序 ， 扫 描 时 避免 了 耗 时 的 过 有 历 树 操 作 。 这 也 
古 B+ 树 被 关系 型 数据 库 用 作 索 引 的 原因 之 一 。 


在 一 柠 B+ 树 索引 中 ， 用 户 可 以 得 到 页 表 《〈 在 一 些 系统 中 被 称 作 
R) 级 别 的 位 置信 息 ， 例 如 ， 叶 节点 页 表 如 下 : 














[link to previous page] 
[link to next page] 
key1 -rowid 

key2 -rowid 


key3 -rowid 





为 了 添加 一 个 新 的 索引 项 key1.5 ， 需 要 更 新 叶 节 点 页 表 并 添加 一 
个 新 的 索引 项 key1.5 并 指 问 对 应 的 rowid 。 对 于 一 个 有 固定 大 小 的 页 
表 来 说 ， 页 表 大 小 超过 容量 限制 时 就 会 产生 问题 。 这 时 需要 将 该 页 表 拆 
分 成 两 个 新 的 页 表 ， 同 时 更 新 原 页 表 的 父 节 点 ， 并 使 其 指向 刚 创 建 的 两 
个 新 节操 。 可 以 把 图 8-1 当 做 一 个 例子 ， 向 图 中 的 一 个 满 页 表 添 加 新 的 
键 时 会 拆 分 页 表 。 
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图 8-1 一 个 满 页 表 的 B+ 树 


现在 的 问题 是 ， 新 建 的 两 个 页 表 在 硬盘 中 并 不 一 定 是 彼此 相 邻 的 。 
如 果 要 进行 一 次 从 key1 到 key3 的 范围 查询 ， 则 需要 读 取 两 个 在 磁盘 上 
不 连续 甚至 可 能 相隔 很 远 的 叶 节 点 页 表 。 这 也 是 为 什么 我 们 在 大 部 分 基 
于 B+ 树 的 设计 中 都 能 找到 一 组 被 称 为 OPTIMIZE TABLE (优化 表 ) 命令 
的 原因 ，B+ 树 这 种 数据 组 织 方式 只 是 简单 地 按 顺 序 把 表 重 写 ， 从 而 使 
表 的 范围 查询 变 成 了 磁盘 的 多 段 连续 读 取 。 








8.1.2 LSM 


LSM} (log-structured merge-tree) 则 按 另 一 种 方式 组 织 数 据 。 输 
入 数据 首先 被 存储 在 日 志文 件 ， 这 些 文件 内 的 数据 完全 有 序 。 当 有 日 志 
文件 被 修改 时 ， 对 应 的 更 新 会 被 先 保存 在 内 存 中 来 加 速 碍 询 。 








当 系 统 经 历 过 许多 次 数据 修改 ， 且 内 存 空 间 被 逐渐 被 占 满 后 ，LSM 
树 会 把 有 序 的 “ 键 -记录 ?对 写 到 磁盘 中 ， 同 时 创建 一 个 新 的 数据 存储 文 
人 
以 被 丢弃 了 。 


存储 文件 的 组 织 与 B 树 相似 ， 不 过 其 为 磁盘 顺序 读 取 做 了 优化 ， 所 
有 节点 都 是 满 的 并 按 页 存储 。 修 改 数据 文件 的 操作 通过 滚动 合并 完成 ， 
也 就 是 说 ， 系 统 将 现 有 的 页 与 内 存 刷 写 数 据 混合 在 一 起 进行 管理 ， 直 到 
数据 块 达到 它 的 容量 。 


图 8-2 展 示 了 在 内 存 中 多 个 块 存储 归并 到 磁盘 的 过 程 ， 合 并 写 入 会 
产生 一 个 新 的 结果 块 ， 最 终 多 个 块 被 合并 为 更 大 块 。 








In Memory l Merge Multi-Page Blocks On Disk 








图 8-2 LSMI P PIE BH IE NG FFE 


多 次 数据 刷 写 之 后 会 创建 许多 数据 存储 文件 ， 后 合 线程 就 会 目 动 将 
小 文件 聚合 成 大 文件 ， 这 样 磁盘 俘 找 束 会 被 限制 在 少数 几 个 数据 存储 文 
件 中 。 磁 盘 上 的 树 结构 也 可 以 拆 分 成 独立 的 小 单元 ， 这 样 更 新 束 可 以 被 
分 散 到 多 个 数据 存储 文件 中 。 所 有 的 数据 存储 文件 都 按键 排序 ， 所 以 没 
有 必要 在 存储 文件 中 为 新 的 键 预 留 位 置 。 


查询 时 移 碍 找 内 存 中 的 存储 ， 然 后 再 查找 磁盘 上 的 文件 。 这 样 在 客 
户 端 看 来 数据 存储 文件 的 位 置 是 透明 的 。 

删除 是 一 种 特殊 的 更 改 ， 当 删除 标记 被 存储 之 后 ， 但 找 会 跳 过 这 些 
删除 过 的 键 。 当 页 被 重 写 时 ， 有 删除 标记 的 键 会 被 天 莽 。 


此 外 ， 后 台 运 维 过 程 可 以 处 理 预 先 设 定 的 删除 请 求 。 这 些 请 求 由 
TTL (time-to-live) 触发 ， 例 如 ， 当 TTIL 设 为 20 天 后 ， 合 并 进程 会 检查 








这 些 预 设 的 时 间 惟 ， 同 时 在 重 写 数据 块 时 丢弃 过 期 的 记录 。 


人 区 别 在 于 它们 的 结构 如 何 利用 硬件 ， 特 别 是 
ARE o 


查找 与 排序 和 合并 的 性 能 瓶颈 © 


我 们 的 大 规模 计算 货 略 受制 于 磁盘 传输 ， 尽 管 CPU、 
RAM 和 磁盘 大 小 每 18 一 24 个 月 翻 一 熏 ， 但 数据 得 找 的 速度 


每 年 只 能 提高 596。 





如 上 面 讨论 的 ， 在 数据 库 中 有 两 种 范式 ， 一 种 是 利用 
存储 的 随机 查找 能 力 ， 男 一 种 是 利用 存储 的 连续 传输 能 
力 。 随 机 查找 在 RDBMS 中 是 由 B- 树 和 B+ 树 数 据 结 构 组 
织 。 它 工作 的 速度 受制 于 磁盘 的 寻 道 速度 ， 每 次 查找 需要 
访问 磁盘 log(N) 次 。 








劝 一 方面 ， 存 储 的 连续 传输 能 力 和 被 LSM 树 使 用 ， 并 以 
一 定 的 传输 速率 排序 和 合并 文件 ， 需 要 执行 1og(updates ) 
次 操作 。 在 以 下 给 定数 值 的 情况 下 ， 其 性 能 对 比如 下 : 


10 MB/s 的 传输 


ee 
TL 3 


TT 
10 ms 的 磁盘 寻 道 时 间 ; 


A 100777 (100124 A) ; 


每 页 10 KB GLH) 。 


更 新 1% 和 条目 (100000000) 所 需 的 时 间 : 


。 使 用 随机 B- 树 更 新 需要 1000 天 ; 
。 使 用 批量 B- 树 更 新 需要 100 天 ; 
。 使 用 排序 和 合并 需要 1 天 。 


由 此 我 们 能 断定 ， 与 利用 存储 的 连续 传输 能 力 相 比 ， 
大 规模 数据 奋 找 非 常 低 效 。 


比较 B+ 树 和 LSM 树 的 音义 在 于 理解 它们 的 相对 优势 和 不 足 。 在 没 
有 太 多 的 修改 时 ，B+ 树 表现 得 很 好 ， 因 为 这 些 修改 要 求 执 行 高 代价 的 
优化 操作 以 保证 但 询 能 在 有 限时 间 内 完成 。 在 任意 位 置 讨 加 数据 的 规模 
WK, TRB, REET AMET RAE. Ba, APS ARE 
度 可 能 比 优 化 后 重 写 文件 的 处 理 速 度 更 快 。 由 于 更 新 和 删除 以 磁盘 寻 道 
的 速率 完成 ， 这 就 强制 用 户 就 范 于 磁盘 提供 的 较 关 的 性 能 指标 。 


LSM 树 以 磁盘 传输 速率 工作 并 能 较 好 地 扩展 以 处 理 大 量 的 数据 。 它 
们 使 用 日 志文 件 和 内 存 存储 来 将 随机 写 转 换 成 顺序 写 ， 因 此 也 能 保证 稳 
定 的 数据 插入 速率 。 由 于 读 和 写 独立 ， 因 此 在 这 两 种 操作 之 间 没 有 剖 
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可 预测 的 范围 内 ， 并 且 读 取 与 该 键 连续 的 任意 数量 的 记录 都 不 会 引发 任 
何 额外 的 磁盘 寻 道 。 一 般 来 说 ， 基 于 LSM 树 的 系统 强调 的 是 成 本 透明 : 
假如 有 5 个 存储 文件 ， 一 个 访问 需要 最 多 5 次 磁盘 寻 道 。 反 观 关 系 型 数据 
它 也 没有 办 法 确定 一 次 查询 需要 的 磁盘 


最 终 ，HBase 与 BigTable 一 样 ， 都 是 基于 LSM 树 的 系统 。 下 一 节 将 
解释 存储 架构 ， 并 将 涉及 本 书 之 前 章节 中 的 内 容 。 














8.2 存储 


HBase 一 个 很 少 为 人 知 的 内 容 就 是 数据 存储 ， 因 为 大 部 分 用 记者 不 
会 接触 到 它 的 底层 存储 结构 ， 不 过 如 果 用 户 想 使 用 一 些 进 阶 的 配置 选项 
就 有 必要 了 解 这 些 内 容 了 。 第 11 章 列举 了 一 些 常 用 的 进 阶 配 置 ， 同 时 附 
录 A 中 有 一 份 完 整 的 列表 。 


用 户 需 要 了 解 底 层 存 储 结构 的 男 一 个 原因 是 ， 当 茶 些 原因 导致 系统 
出 现 重 大 问题 时 ， 用 户 可 能 需要 恢复 HBase 中 的 数据 。 此 时 用 户 就 需要 
知道 数据 存在 何 处 ， 以 及 如 何 从 HDFS 中 访问 这 些 内 容 。 当 然 ， 这 种 情 
况 不 应 当 发 生 ， 但 在 实际 的 系统 中 ， 任 何 异 常情 况 都 是 可 能 的 。 

















8.2.1 概览 


了 解 HBase 存 储 层 中 大 量 移动 块 的 第 一 步 是 男 一 个 顶层 结构 图 。 图 
8-3 展 示 了 HBase 是 如 何 与 Hadoop 文 件 系统 协作 完成 数据 存储 的 。 
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图 8-3 ”HBase 如 何 透明 地 操作 存储 在 HDFS 上 文件 的 概览 
从 这 张 图 可 以 看 出 HBase 主 要 处 理 两 种 文件 : 一 种 是 预 写 日 志 





(Write-Ahead Log，WAL)， 男 一 种 是 实际 的 数据 文件 。 这 两 种 文件 
主要 由 HRegionServer 管理 。 在 某 些 情况 下 ，HMaster 也 可 以 进行 一 
些 底层 的 文件 操作 (在 0.92.0 中 与 0.90.x 中 稍 有 不 同 ) 。 当 存储 数据 到 

HDFS 中 时 ， 用 户 可 能 注意 到 实际 的 数据 文件 会 被 切 分 成 更 小 的 块 。 也 
正 是 这 一 点 ， 用 户 可 以 配置 系统 来 更 好 地 处 理 较 大 或 较 小 的 文件 。 更 多 
的 信息 请 参 阅 8.2.4 节 。 


一 个 基本 的 流程 是 客户 端 首 先 联 系 ZooKeeper 子 集群 (quorum) 
《一 个 由 ZooKeeper 节 点 组 成 的 单独 集群 ) 查找 行 键 。 上 述 过 程 是 通过 
ZooKeeper 获 取 含 有 -ROOT- 的 region 服 务 器 名 《〈 主 机 名 ) 来 完成 的 。 通 
过 含有 -ROOT- 的 region 服 务 器 可 以 查询 到 含有 .META. 表 中 对 应 的 region 
服务 器 名 ， 其 中 包含 请 求 的 行 键 信 息 。 这 两 处 的 主要 内 容 都 被 缓存 下 来 
了 ， 并 且 都 只 查询 一 次 。 最 终 ， 通 过 查询 .META. 服 务 器 来 获取 客户 端 
查询 的 行 键 数据 所 在 region 的 服务 器 名 。 


一 旦 知道 了 数据 的 实际 位 置 ， 即 region 的 位 置 ，HBase 会 缓存 这 次 
查询 的 信息 ， 同 时 直接 联系 管理 实际 数据 的 HRegionServer 。 所 以 ， 
之 后 客户 端 可 以 通过 缓存 信息 很 好 地 定位 所 需 的 数据 位 置 ， 而 不 用 再 次 
查找 .META. 表 ， 参 见 8.5 市 。 


ae 
4, 
: ”局 动 HBase 时 ，HMaster 负责 将 所 有 region 分 配 到 每 
个 HRegion Server 上 ， 其 中 也 包括 特别 的 -ROOT- 
和 .META. 表 ， 人 参见 8.6 节 。 














HRegionServer 负责 打开 region， 并 创建 对 应 的 HRegion 实例 。 
当 HRegion 被 打开 后 ， 它 会 为 每 个 表 的 HColumnFamily 创建 一 
个 Store 实例 ， 这 些 列 族 是 用 户 之 前 创建 表 时 定义 的 。 每 个 Strore 实 
例 包含 一 个 或 多 个 StoreFile 实例 ， 它 们 是 实际 数据 存储 文件 HFile 的 
轻 量 级 封装 。 每 个 Store 还 有 其 对 应 的 一 个 MemStore ,一 
个 HRegionServer 分 享 了 一 个 HLog 实例 (参见 8.3 节 ) 。 





8.2.2 Bree 


“4 FA F IeJHRegionServer 发 起 HTable.put(Put) 请 求 时 ， 其 会 将 
请 求 交 给 对 应 的 HRegion 实例 来 处 理 。 第 一 步 是 要 决定 数据 是 否 需 要 写 
到 由 HLog 类 实现 的 预 写 日 志 中 。 9 WAL 是 标准 的 Hadoop 
SequenceFile ， 并 且 存 储 了 HLogKey 实例 。 这 些 键 包 括 序列 号 和 实际 
数据 ， 所 以 在 服务 占 骨 沉 时 可 以 回 深 还 没有 持久 化 的 数据 。 


一 旦 数据 被 写 入 到 WAL 中 ， 数 据 就 会 被 放 到 MemStore 中 。 同 时 还 
会 检查 MemStore 是 否 已 经 满 了 ， 如 果 满 了 ， 就 会 被 请 求 刷 写 到 磁盘 中 
去 。 刷 写 请 求 由 另外 一 个 HRegionServer 的 线程 处 理 ， 它 会 把 数据 写 
成 HDFS 中 的 一 个 新 HFile 。 同 时 也 会 保存 最 后 写 入 的 序号 ， 系 统 就 知 
道 哪些 数据 现在 被 持久 化 了 。 








关闭 前 预 刷 写 


memstore 被 刷 写 到 磁盘 的 第 二 个 理由 是 : 预 刷 写 
(prefushing) > 当 region 服 务 器 被 要 求 关闭 时 ， 会 首先 检 
查 memstore， 任 何 大 于 配置 值 hbase.hregion.preclose. 
flush.size (默认 值 为 5 MB) 的 memstore 会 刷 写 到 磁 
盘 ， 然 后 在 最 后 一 轮 阻 塞 正常 访问 的 刷 写 后 关闭 region 。 


另 一 方面 ， 关 闭 region 服 务 器 会 强制 所 有 的 memstore 被 
刷 写 到 磁盘 ， 而 不 会 关心 memstore 是 否 达 到 了 配置 的 最 大 
值 ， 可 以 使 用 配置 项 hbase.hregion.memstore . 
flush.size (默认 值 为 64 MB) 或 者 通过 创建 表 (查看 
5.1.2 节 的 “文件 大 小 限制 ”来 进行 设置 。 一 且 所 有 的 
memstore#il #4 Mi) 5 BI] T HEHE, regione RAY), AEB SI 
其 他 region 服 务 器 时 不 会 重 做 WAL。 


使 用 额外 的 一 轮 预 刷 写 会 提高 region 的 可 用 性 : 在 预 刷 


写 时 ， 服 务 器 与 region 仍 旧 可 用 ， 这 类 似 于 通过 API 或 Shell 
命令 调用 刷 写 Cush) 。 当 剩 下 的 比较 小 的 memstore 完 成 
了 第 二 轮 刷 写 时 ， 此 时 会 停止 所 有 请 求 。 这 一 轮 刷 写 会 保 
存 预 刷 写 过 程 中 的 所 有 修改 ， 以 保证 服务 器 可 以 干净 地 退 
id 





8.2.3 ”文件 


HBase 使 用 一 个 HDFS 中 可 配置 的 根 目录 ， 默 认 设 为 "/hbase"。 
12.3.1 节 展示 了 如 何 使 用 不 同根 目录 来 让 多 个 HBase 集 群 共享 HDFS。 用 
户 可 以 使 用 hadoop dfs-lsr 命令 来 查看 HBase 的 目录 结构 。 在 这 之 前 ， 我 
们 先 建立 一 个 包含 多 个 region 的 表 。 

















hbase(main):001:0> create 'testtable', 'colfami',\ 


{ SPLITS => ['row-300', 'row-500', 'row-700', 'row-900'] }</ 
© row(s)in 0.1910 seconds 


hbase(main):002:0> for i in '@'..'9' do for j in '@'..'9' do \ 


for k in '@'..'9' do put 'testtable', "row-#{i}#{j}#{k}",\ 


"colfam1:#{jHHk}","#{j}#{k}" end end end 


© row(s)in 1.0710 seconds 
© row(s)in 0.0280 seconds 
© row(s)in 0.0260 seconds 


hbase(main):003:0> flush 'testtable' 


© row(s)in 0.3310 seconds 


hbase(main) :004:@> for i in '@'..'9' do for j in '@'..'9' do \ 


for k in '@'..'9' do put 'testtable', "row-#{i}#{j}#{k}",\ 


“colfam1:#{j}#{k}", "#{j}#{k}" end end end 


© row(s)in 1.0710 seconds 
© row(s)in 0.0280 seconds 
© row(s)in 0.0260 seconds 





flush 命令 可 以 将 内 存 中 的 数据 写 到 存储 文件 中 ， 人 否则 就 必须 等 插入 
的 数据 达到 配置 的 刷 写 大 小 。 最 后 的 循环 使 用 put 命令 来 再 次 填充 
WAL。 经 过 这 些 操作 后 ，HBase 的 根 目录 结构 如 下 : 





$ $HADOOP_HOME/bin/hadoop dfs -lsr /hbase 


© /hbase/.logs 
© /hbase/.logs/foo. internal, 60020, 1309812147645 
© /hbase/.logs/foo. internal, 60020,1309812147645/ \ 
foo. internal%2C60020%2C1309812147645 .1309812151180 
© /hbase/.oldlogs 
38 /hbase/hbase.id 
3 /hbase/hbase.version 
© /hbase/testtable 
487 /hbase/testtable/.tableinfo 
© /hbase/testtable/.tmp 
© /hbase/testtable/1d562c9c4d3b8810b3dbeb21f5746855 
© /hbase/testtable/1d562c9c4d3b8810b3dbeb215746855/.oldlogs 
124 /hbase/testtable/1d562c9c4d3b8810b3dbeb215746855/.oldlogs/ \ 
hlog.1309812163957 
282 /hbase/testtable/1d562c9c4d3b8810b3dbeb215746855/.regioninfo 
© /hbase/testtable/1d562c9c4d3b8810b3dbeb21f5746855/.tmp 
© /hbase/testtable/1d562c9c4d3b8810b3dbeb21f5746855/colfam1 
11773 /hbase/testtable/1d562c9c4d3b8810b3dbeb21f5746855/colfami/ \ 
646297264540129145 
© /hbase/testtable/66b4d2adcc25f1643da5e6260c7F7b26 
311 /hbase/testtable/66b4d2adcc25#1643da5e6260c7f7b26/.regioninfo 
© /hbase/testtable/66b4d2adcc25f1643da5e6260c77b26/ .tmp 
© /hbase/testtable/66b4d2adcc25f1643da5e6260c7F7b26/colfam1 
7973 /hbase/testtable/66b4d2adcc25f1643da5e6260c7f7b26/colfami/ \ 
3673316899703710654 
© /hbase/testtable/99c0@716d66e536d927b479aF4502bc91 
297 /hbase/testtable/99c0716d66e536d927b479af4502bc91/.regioninfo 
© /hbase/testtable/99c0716d66e536d927b479aF4502bc91/ .tmp 
© /hbase/testtable/99c0@716d66e536d927b479aF4502bc91/colfam1 
4173 /hbase/testtable/99c0716d66e536d927b479af4502bc91/colfam1/ \ 
1337830525545548148 
© /hbase/testtable/d240@e0e57dcf4a7e11F4c0b106a33827 
311 /hbase/testtable/d24@e@e57dcf4a7e11F4c0b106a33827/.regioninfo 
© /hbase/testtable/d240e0e57dcf4a7e11F4c0b106a33827/.tmp 
© /hbase/testtable/d240@e0e57dcf4a7e11F4c0b106a33827/colfam1 
7973 /hbase/testtable/d240e0e57dcf4a7e11f4c0b106a33827/colfami/ \ 
316417188262456922 
© /hbase/testtable/d9ffc3a5cd016ae58e23d7a6cb937949 
311 /hbase/testtable/d9ffc3a5cde16ae58e23d7a6cb937949/.regioninfo 
© /hbase/testtable/d9ffc3a5cd016ae58e23d7a6cb937949/ .tmp 
© /hbase/testtable/d9ffc3a5cd016ae58e23d7a6cb937949/colfam1 
7973 /hbase/testtable/d9ffc3a5cd016ae58e23d7a6cb937949/colfami/ \ 
4238940159225512178 


[L úűů 


«et i 
一 人 由 于 篇 幅 原因 ， 输 出 结果 被 精简 到 只 有 目录 及 文件 
的 大 小 。 用 户 自己 执行 这 些 命令 时 可 以 看 到 更 多 的 细节 。 











文件 可 以 被 分 为 两 类 ， 一 类 位 于 HBase 根 目录 下 ， 男 一 类 位 于 根 目 
录 中 的 表 目 录 下 。 


1. 根 级 文件 


第 一 组 文件 是 被 HLog 实例 管理 的 WAL 文 件 ， 这 些 日 志文 件 被 创建 
在 HBase 的 根 目录 下 一 个 名 为 .logs 的 目录 中 。 对 于 每 
个 HRegionSserver， 日 志 目 录 中 都 包含 一 个 对 应 的 子 目 录 。 在 每 个 子 
目录 中 有 多 个 HLog 文件 (因为 日 志 深 动 ) 。 一 个 region 服务 器 的 所 有 
region 共 享 同一 组 HLog 文件 。 


一 个 有 趣 的 现象 是 ， 由 于 文件 最 近 才 被 创建 ， 所 以 日 志文 件 大 小 被 
报告 为 0。 这 个 现象 很 典型 ， 由 于 HDFS 使 用 内 置 的 append 机 制 来 追加 
写 入 此 文件 ， 所 以 只 有 等 到 文件 大 小 达到 一 个 完整 的 块 时 ， 文 件 对 用 户 
才 是 可 见 的 包括 hadoop dfs—Isr 命令 。 虽 然 put 操 作 的 数据 被 安全 持 
久 化 了 ， 但 当前 写 入 日 志文 件 的 数据 大 小 是 稍微 偏离 的 。 


在 等 竺 一 个 小 时 后 ， 日 志文 件 被 滚动 A 8.3.67) ， 这 个 时 间 是 
HHhbase.regionserver.logroll.period 配置 属性 (默认 设置 为 60 
ay) 控制 的 。 此 时 ， 由 于 日 志文 件 被 关闭 ，HDFS 能 列 出 其 正确 的 大 
小 ， 紧 接着 它 的 下 一 个 新 日 志文 件 的 大 小 又 从 0 开始 了 : 




















249962 /hbase/.logs/foo.internal,60020,1309812147645/ \ 
foo. internal%2C60020%2C1309812147645 .1309812151180 
© /hbase/.logs/foo. internal, 60020,1309812147645/ \ 
foo. internal%2C60020%2C1309812147645 .1309815751223 


pO 


当 所 有 包含 的 修改 都 被 持久 化 到 存储 文件 中 ， 从 而 不 再 需要 日 志文 
件 时 ， 它 们 会 被 放 到 HBase 根 目录 下 的 .oldlogs 目录 中 。 当 条 件 满足 配置 
上 的 痪 值 会 触发 日 志 的 滚动 。 在 10 分 钟 〈 默 认 情 况 下 ) 后 ， 旧 的 日 志文 
件 将 被 master 删 除 ， 这 是 通过 hbase .master.logcleaner.ttl 属性 设 
置 的 。master 每 分 钟 〈 默 认 情 况 下 ) 检查 一 次 这 些 文 件 ， 这 是 通过 
hbase.master.cleaner.interval 属性 设置 的 。 


«et i 
一 人 过 期 的 日 志文 件 可 以 及 时 被 移 除 。 复 制 特性 (查看 
8.8 节 ) 可 以 利用 这 种 行为 来 访问 仍然 存在 的 修改 。 











hbase.id 和 hbase.version 文件 包含 集群 的 唯一 ID 和 文件 格式 版 本 信 


JO 


$ hadoop dfs -cat /hbase/hbase.id 


$e627e136-6ae2-448d-8bb5-117a8af66e97 
$ hadoop dfs -cat /hbase/hbase.version 








它们 在 内 部 使 用 ， 且 携带 的 信息 不 多 。 此 外 ， 随 着 时 间 的 推移 又 会 


有 更 多 根 级 别 的 目录 出 现 。 splitlog 和 .corrupt 文件 夹 分 别 被 用 来 存储 
日 志 拆 分 过 程 中 产生 的 中 间 拆 分 文件 和 损坏 的 日 志 。 例 如 : 


© /hbase/.corrupt 

© /hbase/splitlog/foo. internal , 60020, 1309851880898 hdfs%3A%2F%2F \ 
localhost%2Fhbase%2F . logs%2F foo. internal%2C60020%2C1309850971208%2F \ 
foo. internal%252C60020%252C1309850971208 .1309851641956/testtable/ \ 


d9ffc3a5cd016ae58e23d7a6cb937949/recovered. edits/8000000000000002352 





这 个 例子 中 没有 损坏 的 日 志文 件 ， 所 以 仅 显 示 了 一 个 中 间 拆 分 文 
件 。 日 志 拆 分 过 程 在 8.3.7 节 中 有 解释 。 


2. 表 级 文件 


在 HBase 中 ， 每 张 表 都 有 上 自己 的 目录 ， 其 位 于 文件 系统 中 HBase 根 
目录 下 。 每 张 表 目录 包括 一 个 名 为 .tableinfo 的 顶层 文件 ， 该 文件 存储 
表 对 应 序列 化 后 的 HTableDescriptor (详情 请 查看 5.1.1 节 ) 。 其 中 包 
括 表 和 列 族 的 定义 ， 同 时 其 内 容 也 可 以 被 读 取 ， 例如， 用 户 可 以 使 用 一 
些 工 具 查 看 表 的 大 致 结构 。 tmp 目录 中 包含 一 些 临 时 数据 ， 例 如 ， 当 
更 新 .tableinfo 文件 时 生成 的 临时 数据 就 会 被 存放 到 该 目录 中 。 


3. region 级 文件 
在 每 张 表 的 目录 里 面 ， 表 模式 中 每 个 列 族 都 有 一 个 单独 的 目录 。 目 


录 的 名 字 是 一 部 分 region 名 字 的 MD5 散 列 值 。 例 如 ， 下 面 的 内 容 是 在 点 
击 master 网 页 界面 中 用 户 表 区 域 的 testtable 链接 时 得 到 的 。 


























testtable, row-506,1369812163936 .d9ffc3a5cd616ae58e23d7a6cb937949 . 





MD5 散 列 值 是 d9ffc3a5cd616ae58e23d7a6cb937949 ， 它 是 通过 
编码 region 名 字 得 到 的 ， 例 如 ，testtable,row-566,1369812163936 . 
， 末 尾 的 点 是 这 个 region 名 字 的 一 部 分 : 它 表示 这 是 一 个 包含 散 列 值 的 
新 样式 名 字 ， 在 以 前 的 HBase 版 本 中 ，region 名 字 不 包含 散 列 值 。 
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”注意 ，-ROOT- 和 .META. 这 些 目录 表 用 的 依然 是 旧 
命名 格式 ， 例 如 ， 它 们 的 region 名 字 不 包括 散 列 值 ， 因 此 末尾 
不 是 以 点 结束 的 : 


-META.,,1.1028785192 


它们 在 磁盘 目录 的 region 名 字 的 编码 也 不 同 : 它们 
用 Jenkins 散 列 值 来 编码 region 的 名 字 。 





散 列 能 保证 目录 名 称 不 违背 文件 系统 的 命名 规则 :它们 不 能 包含 任 
何 特殊 字符 ， 例 如 ， 用 来 划分 路 径 的 斜 线 〈“/) 。region 文 件 的 总 体 结 


构 是 : 


/< hbase-root-dir>/< tablename>/< encoded-regionname>/< column-family>/< f 
ilename> 





HP ATE BER A Se BSE Ps BE SCE, FEB. A E yE 
细 的 介绍 。 这 些 文件 的 名 字 仅 仪 是 一 个 由 Java 内 置 的 随机 数 生 成 器 生成 
的 随机 数 。 代 码 能 够 乔 能 地 检查 出 发 生 的 碰撞 ， 即 新 生成 号 码 对 应 的 文 
件 已 经 存在 。 程 序 将 一 直 循环 ， 直 到 找到 一 个 未 使 用 的 数字 。 


region 目录 中 也 有 一 个 .regioninjo 文件 ， 这 个 文件 包含 了 对 应 region 


的 HRegionInfo 实例 序列 化 后 的 信息 。 与 .tableinfo 文件 类 似 ， 它 能 被 
外 部 工具 用 来 查看 region 的 相关 信息 。 例 如 ，HBase 的 hbck 工具 就 用 它 
来 检查 并 生成 元 数据 表 中 丢失 的 条 目 。 


可 选 的 .tmp 目录 是 按 需 求 创建 的 ， 它 被 用 来 存放 临时 文件 ， 例 如 ， 
一 次 合并 的 重 写 文件 。 一 旦 这 个 过 程 完成 ， 这 些 临时 生成 的 文件 通常 会 
被 移 到 region 目 录 中 。 在 极 少 的 情况 下 ， 用 户 可 能 发 现 遗 留 的 文件 ， 这 
些 文件 将 在 region 重 新 打开 时 被 清理 邱 。 

在 WAL 回 放 时 ， 任 何 未 提交 的 修改 都 会 被 写 入 到 每 个 region 的 一 个 
单独 的 文件 中 。 以 上 是 第 一 步 〈 碍 看 本 节 的 “Root 级 文件 ”的 splitiod H 
K) ， 然 后 如 果 日 志 拆 分 过 程 已 经 成 功 完 成 ， 这 些 文件 将 被 自动 移动 到 
临时 的 recovered.edits 目录 中 。 当 region 被 打开 时 ，region 服 务 器 将 会 看 
到 需要 恢复 的 文件 ， 并 且 回 放 其 中 相应 的 条 目 。 


yk 
一 一 WAL 的 拆 分 (参见 8.3.7 节 ) 和 region 的 拆 分 (参见 
本 节 的 “region 拆 分 ?>) 有 明显 的 区 别 ， 有 时 候 很 难 区 分 文件 系 
统 中 的 文件 名 和 目录 名 ， 因 为 它们 的 名 称 中 都 有 拆 分 字样 。 
用 户 需 要 仔细 辨别 它们 的 目的 来 避免 混淆 或 者 错误 。 
































一 旦 region 超 过 了 配置 中 region 大 小 的 最 大 值 ，region 束 需要 拆 分 ， 
其 会 创建 一 个 对 应 的 splits 目录 ， 它 被 用 来 临时 存放 两 个 子 region 相 关 的 
数据 。 如 果 拆 分 过 程 成 功 ( 通 常 这 个 过 程 持 续 几 秒 或 更 短 时 间 ) ， 之 后 
Ce rae aaa 并 形成 两 个 新 的 region， 每 个 region 代 表 原 始 
regionH =F. 


换 而 言 之 ， 当 用 户 看 见 一 个 region 的 目录 中 没有 .tmp 目录 ， 这 就 意 
味 着 还 没有 进行 过 压缩 操作 。 如 果 没 有 recovered.edits 目录 ， 这 就 意味 
着 WAL 还 没有 进行 过 回放 操作 。 








一 在 HBase0.90.x 之 前 的 版 本 中 还 有 些 额外 的 文件 ， 这 
些 文件 现 在 已 经 不 再 使 用 了 。 一 个 是 oldlogfile.log 文件 ， 它 包 
含 给 定 region 已 经 回放 过 的 WAL。oldlogfile.log.old StF GE 
意 额 外 的 .old FARA) 表示 当 一 个 新 的 oldlogfile.log 被 放 进 来 
时 已 经 存在 一 个 旧 的 文件 。 





在 旧版 本 的 HBase 中 ， 男 外 一 个 值得 注意 的 文件 
是 compaction.dir ， 它 现在 已 经 被 .timp HERE. 





以 上 总 结 了 在 HBase 根 文件 夹 中 经 名 出 现 的 各 种 目录 的 列表 。 
region 拆 分 的 过 程 还 会 产生 一 些 中 间 文 件 ， 这 些 文件 将 在 下 一 市 单独 讨 
论 。 


4. region 拆 分 


当 一 个 region 里 的 存储 文件 增长 到 大 于 配置 的 
hbase.hregion.max.filesize 大 小 或 者 在 列 族 层面 配置 的 大 小 时 ， 
region 会 被 一 分 为 二 。 这 个 过 程 通常 非常 迅速 ， 因 为 系统 只 是 为 新 
region《〈 也 称 作 孩 子 ) 创建 了 两 个 对 应 的 文件 ， 每 个 region 是 原始 
region (AKER) 的 一 半 。 


region 服务 器 通过 在 父 region 中 创建 splits 目录 来 完成 这 个 过 程 。 接 
下 来 关闭 该 region， 此 后 这 个 region 不 再 接受 任何 请 求 。 


然后 region 服 务 器 通过 在 splits 目录 中 设立 必需 的 文件 结构 来 准备 新 
的 子 region〈 使 用 多 线程 ) ， 包 括 新 region 目 录 和 参考 文件 。 如 果 这 个 过 
程 成 功 完 成 ， 它 将 把 两 个 新 region 目 录 移 到 表 目 录 中 。.META. KPK 
region 的 状态 会 被 更 新 ， 以 表示 其 现在 拆 分 的 节点 和 子 节 点 是 什么 。 以 
上 过 程 可 以 避免 父 region 被 意外 重新 打开 。.META. 表 中 的 内 容 大 致 如 
F: 














row: testtable, row-500, 1309812163930.d9ffc3a5cd016ae58e23d7a6cb937949. 


column=info: regioninfo, timestamp=1309872211559, value=REGION => {NAME => 
\ 
'testtable,row-500,1309812163930.d9ffc3a5cd016ae58e23d7a6cb937949. 
TableName => 'testtable',STARTKEY => 'row-500',ENDKEY => 'row-700',\ 
ENCODED => d9ffc3a5cd016ae58e23d7a6cb937949,OFFLINE => true, 
SPLIT => true, } 


column=info: splitA, timestamp=1309872211559,value=REGION => {NAME => \ 


"testtable, row-500, 1309872211320.d5a127167c6e2dc5106fFO66cc84506F8. 
TableName => ‘'testtable',STARTKEY => 'row-500',ENDKEY => ‘row-550',\ 
ENCODED => d5a127167c6e2dc5106f066cc84506F8, } 

column=info: splitB, timestamp=1309872211559,value=REGION => {NAME => \ 
"testtable, row-550, 1309872211320. de27e14Fffclf3FFF65ce424Fcf14ae42. \ 
TableName => [B@62892cc5',STARTKEY => ‘row-55@',ENDKEY => 'row-700',\ 
ENCODED => de27e14ffc1f3fff65ce424fcf14ae42, } 





由 此 可 见 ， 原 始 region 在 row-556 如 何 被 拆 分 成 两 个 region . 
在 info:regioninfo 列 值 中 的 SPLIT => true 也 表示 region 现 在 正在 
拆 分 成 叫做 info:splitA 和 info:splitB 的 region。 


引用 文件 的 名 字 是 另外 一 个 随机 数字 ， 不 过 其 后 带 有 被 引用 的 
region 的 散 列 值 作为 后 经， 例如: 





/hbase/testtable/d5a127167c6e2dc5106f066cc84506f8/colfam1/ \ 
6630747383202842155.d9ffc3a5cd0@16ae58e23d7a6cb937949 





上 面 所 示 的 引用 文件 代表 散 列 值 
为 d9ffc3a5cd616ae58e23d7a6cb937949 的 原始 region 的 一 半 ， 
region 也 出 现在 上 面 的 例子 中 。 参 考 文 件 仅 包 含 很 少 的 信息 : 原始 region 





被 拆 分 处 的 键 以 及 它 是 否 为 表 顶 部 或 者 二 部 的 引用 文件 。 值得 注意 的 
是 ， 这 些 引 用 文件 后 面 会 被 HalfHFileReader 类 (这 个 在 前 面 的 概述 
a 略 了， 因为 它 只 是 短暂 地 被 使 用 ) 用 来 读 原 始 region 的 数据 文 





两 个 子 region 都 准备 好 后 ， 将 会 被 同一 个 服务 器 并 行 打开 。 打 开 的 
过 程 包括 更 新 .META. 表 ， 这 样 可 以 把 两 个 region 像 其 他 region 一 样 作 为 
可 用 region 列 出 来 。 之 后 这 两 个 region 会 上 线 并 开始 服务 请 求 。 


同时 也 会 初始 化 为 两 个 region 并 对 region 中 的 内 容 执 行 合 并 ， 合 并 过 
程 在 蔡 换 引用 文件 之 前 会 把 父 region 的 存储 文件 异步 重 写 到 两 个 子 region 
中 。 以 上 过 程 会 在 子 region 的 .tmp 目录 中 执行 。 一 旦 生成 了 重 写 之 后 的 
文件 ， 它 们 将 自动 取代 引用 文件 。 


最 终 父 region 会 被 清理 掉 ， 这 意味 着 它 在 .META. 表 中 的 表 项 会 被 移 
除 ， 并 且 它 在 磁盘 上 所 有 的 文件 都 会 被 删除 。 最 后 ，master 被 告知 关于 
人 分 的 情况 ， 并 且 可 以 由 于 负载 均衡 而 把 新 region 移 动 到 其 他 region 服 务 
a 





| | de 
在 拆 分 过 程 中 ， 所 有 的 步骤 都 在 ZooKeeper 中 进行 
跟踪 。 这 使 得 在 一 个 服务 器 失效 时 ， 其 他 进程 可 以 知道 这 个 


region 的 状态 。 





5. 合并 


存储 文件 会 被 后 台 的 管理 进程 仔细 地 监控 起 来 以 确保 它们 处 于 控制 
之 下 。 随 着 memstore 的 刷 写 会 生成 很 多 磁盘 文件 。 如 果 文 件 的 数目 达到 
RE, A Ccompaction) 过 程 将 把 它们 合并 成 数量 更 少 的 体积 更 大 的 
文件 。 这 个 过 程 持 续 到 这 些 文 件 中 最 大 的 文件 超过 配置 的 最 大 存储 文件 
大 小 ， 此 时 会 触发 一 个 region 拆 分 。 


压缩 合并 有 两 种 ， 即 minor 和 major。minor 合 并 负 贡 重 写 最 后 生成 的 
几 个 文件 到 一 个 更 大 的 文件 中 。 文 件数 量 是 
由 hbase.hstore.compaction.min (之 前 被 称 做 hbase. 
hstore.compactionThreshold ， 尺 管 已 经 废弃 了 了， 但 是 这 个 属性 依 
然 可 用 ) 属性 设置 的 。 它 的 默认 值 为 3， 并 且 最 小 值 需要 大 于 或 等 于 2。 

















过 大 的 数字 将 会 延迟 minor 合 并 的 执行 ， 同 时 也 会 增加 执行 时 消耗 的 次 
源 及 执行 的 时 间 。 


minor 合 并 可 以 处 理 的 最 大 文件 数量 默认 为 10， 用 户 可 以 通过 
hbase.hstore.compaction.max 来 配 
置 。hbase.hstore.compaction.min.size (默认 设置 为 region 的 
memstore 刷 写 大 小 ) 和 hbase.hstore.compaction.max.size (默认 
设置 为 Long.MAX_VALUE ) 配置 项 属性 进一步 减少 了 需要 合并 的 文件 列 
表 。 任 何 比 最 大 合并 大 小 大 的 文件 都 会 被 排除 在 外 。 最 小 合并 大 小 的 功 
能 稍 有 不 同 : 它 是 一 个 靖 值 ， 而 不 是 每 个 文件 的 限制 。 它 包括 所 有 小 于 
限制 的 文件 ， 直 到 达到 每 次 压缩 允许 的 总 文件 数量 。 


图 8-4 显 示 了 所 有 小 于 最 小 压缩 国 值 的 文件 都 被 包括 在 了 压缩 过 程 
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图 8-4 ”最 小 压缩 阔 值 限制 下 的 文件 集 





算法 使 用 hbase.hstore.compaction.ratio (默认 为 1.2， 或 者 
120%) 来 确保 在 选择 过 程 中 包括 足够 的 文件 。 经 过 跟 新 文件 总 的 存储 
文件 比较 之 后 ， 这 个 比例 仍 将 选择 达到 那个 值 的 文件 。 评 估 总 是 按照 从 
老 文 件 到 新 文件 的 顺序 来 进行 的 ， 这 样 可 以 确保 更 老 的 文件 首先 被 合 
并 。 这 些 属性 的 组 合 允 许 用 户 微调 一 个 minor 合 并 包括 文件 的 数量 。 


HBase 支 持 的 另外 一 种 合并 是 major 合 并 : 它们 把 所 有 文件 压缩 成 一 
个 单独 的 文件 。 在 执行 压缩 检查 时 ， 系 统 自 动 决定 运行 哪 种 合并 。 在 
memstore 被 刷 写 到 磁盘 后 会 触发 检查 ， 或 在 Shell 命 令 compact 
~ major_compact 之 后 触发 检查 ， 或 是 相应 API 在 被 调用 后 触发 检查 ， 抑 
或 是 被 一 个 异步 的 后 台 进 程 触发 后 。region 服 务 器 运行 这 个 线程 ， 而 其 
功能 由 CompactionChecker 类 实现 ， 它 以 一 个 固定 的 周期 触发 检查 ， 
这 个 周期 由 hbase.server.thread.wakefrequency 参数 控制 〈 乘 以 











hbase.server.thread.wakefrequency.multiplier ， 设 为 1000， 


这 样 它 的 执行 频率 不 会 像 其 他 基于 线程 的 任务 那么 频繁 ) 


除非 用 户 使 用 Shell 命 令 major_ compact 或 者 使 用 majorCompact() 
这 个 API， 将 强制 运行 major 合 并 ， 否 则 服务 器 会 首先 检查 上 次 运行 到 现 
在 是 否 达 到 hbase. hregion.majorcompaction ( 设 为 24 小 时 ) 指定 
的 时 限 。hbase.hregion.majorcompaction.jitter 〈 设 为 0.2， 即 
20%) 参数 会 将 所 有 存储 的 时 间 周 期 分 开 。 如 果 没 有 这 个 抖动 ， 所 有 的 
存储 文件 都 将 在 每 24 小 时 的 同一 时 间 运 行 一 个 major 合 并 。 人 参见 11.4.1 
节 ， 用 户 可 了 解 以 上 方法 的 问题 以 及 如 何 更 好 地 进行 管理 。 


如 果 还 没有 达到 major 合 并 的 执行 周期 ， 系 统 会 选择 minor 合 并 执 
行 。 基 于 以 上 配置 属性 ， 服 务 器 将 检查 是 否 有 足够 的 文件 供 minor 合 并 
执行 ， 如 果 有 就 继续 。 


当 minor 合 并 包括 所 有 的 存储 文件 ， 且 所 有 文件 均 未 达到 设置 的 每 
次 压缩 的 最 大 文件 数 时 ，minor 合 并 可 能 被 提升 成 major 合 并 。 














8.2.4 HFile 格式 


实际 的 存储 文件 功能 是 由 HFile 类 实现 的 ， 它 被 专门 创建 以 达到 一 
个 目的 : 有效 地 存储 HBase 的 数据 。 它们 基于 Hadoop 的 TFile 类 名 3 
模仿 - Google 的 BigTable 架 构 使 用 的 SSTable 格 式 。 曾 在 HBase 中 使 用 过 的 
Hadoop 的 MapFile 类 被 证 明 性 能 能 不 够 好 。 图 8-5 显 示 了 文件 格式 的 详细 
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Kl8-5 HFile 结构 


这 些 文件 是 可 变 长 度 的 ， 唯 一 固定 的 块 是 File Info RM Trailer 块 。 
如 图 8-5 所 示 ，Trailer 有 指向 其 他 块 的 指针 。 它 是 在 持久 化 数据 到 文件 结 
束 时 写 入 的 ， 写 入 后 即 确定 其 成 为 不 可 变 的 数据 存储 文件 。Index 块 记 








录 Data 和 Meta 块 的 偏 移 量 。Data 和 Meta 块 实际 上 都 是 可 选 的 ， 但 是 考虑 
到 HBase 如 何 使 用 数据 文件 ， 在 存储 文件 中 用 户 几 乎 总 能 找到 Data 块 。 


块 大 小 是 由 HColumnDescriptor 配置 的 ， 而 该 配置 可 以 在 创建 表 
i 比较 合理 的 默认 值 。 下 面 是 在 master 的 Web 界 面 
显示 à 列子 : 





{NAME => 'testtable',FAMILIES => [{NAME => 'colfam1', 
BLOOMFILTER => 'NONE',REPLICATION SCOPE => '@',VERSIONS => '3', 
COMPRESSION \=> 'NONE',TTL => '2147483647',BLOCKSIZE => '65536', 


IN MEMORY => 'false',BLOCKCACHE => 'true'}]} 





这 里 的 默认 值 是 64 KB (或 655 35625277) 。 下 面 是 HFile 的 
JavaDoc 解 释 ; 


“ 块 大 小 的 最 小 值 。 对 于 一 般 的 应 用 ， 我 们 建议 将 最 小 
的 块 大 小 设置 为 8KB~1 MB。 如 果 应 用 主要 涉及 顺序 访 
问 ， 较 大 的 块 大 小 将 更 加 合适 。 不 过 这 会 降低 随机 读 性 能 
《因为 需要 解压 缩 更 多 的 数据 ) 。 较 小 的 块 更 有 利于 随机 
数据 访问 ， 不 过 同时 也 需要 更 多 的 内 存 来 存储 块 索引 ， 并 
且 可 能 创建 过 程 也 会 变 得 更 慢 〈 因 为 我 们 必须 在 每 个 数据 
块 结束 的 时 候 刷 写 压缩 流 ， 这 会 导致 了 一 个 FS IO 刷 写 ) 。 
此 外 ， 由 于 压缩 解码 器 存在 内 部 缓存 ， 导 致 可 能 的 最 小 的 
块 大 小 是 20 KB~30 KB. ” 














每 个 块 都 包含 一 个 magic 头 部 和 一 定数 量 的 序列 化 的 KeyValue 实 
例 〈 详 见 8.2.5 节 ， 并 碍 看 它们 的 格式 ) 。 如 果 用 户 没有 使 用 压缩 算法 ， 
每 个 块 大 小 和 配置 的 块 大 小 差不多 。 但 这 并 不 是 什么 精密 科学 ， 写 入 程 
序 必须 适应 用 户 写 入 的 数据 : 如 果 用 户 存储 了 一 个 比 块 大 小 更 大 的 





KeyValue 实例 ， 则 HBase 也 必须 接受 它 。 不 过 即使 是 较 小 的 值 ， 对 于 
块 大 小 的 检查 也 是 在 最 后 一 个 值 写 入 后 才 进 行 的 ， 所 以 在 实际 情况 中 ， 
大 部 分 块 会 稍 大 。 

当 使 用 压缩 算法 时 ， 有 用户 对 于 块 大 小 的 控制 力 将 更 弱 。 压 缩 解 码 器 
在 能 够 自己 控制 获取 的 数据 量 时 才能 达到 最 有 效 的 压缩 比率 。 例 如 ， 把 
块 大 小 设置 为 256 KB， 并 使 用 LZO 压 缩 算法 ， 系 统 将 写 更 小 的 块 来 适应 
LZO 的 内 部 缓冲 区 大 小 。 


wW R 
一 一 很 多 压缩 库 有 一 系列 参数 ， 用 户 可 以 用 来 指定 缓冲 
区 大 小 和 其 他 更 具体 的 属性 。 请 参考 JNI 库 的 源 代码 来 查找 可 
用 的 选项 。 

















HBase 不 知道 用 户 是 否 选择 了 一 个 压缩 算法 : 它 将 按照 块 大 小 的 限 
制 来 写 原 始 数据 ， 并 尽量 让 原始 数据 的 大 小 与 这 个 限制 接近 。 如 果 用 户 
司 用 了 压缩 ， 则 保存 到 磁盘 上 的 数据 将 更 少 。 这 意味 独 最 终 的 存储 文件 
由 相同 数量 的 块 组 成 ， 但 是 由 于 每 一 个 块 都 更 小 ， 所 以 总 大 小 也 更 小 。 


在 HDFS 中 ， 文 件 的 默认 块 大 小 是 64 MB， 这 个 是 HFile 默认 块 大 
小 的 1024 倍 。 因 此 HBase 存 储 文件 的 块 与 Hadoop 的 块 之 间 没 有 匹配 关 
系 。 事 实 上 ， 这 两 种 块 类 型 之 间 根 本 没有 相关 性 。HBase 把 它 的 文件 透 
明 地 存储 到 文件 系统 中 ， 而 HDFS 也 使 用 块 来 切 分 文件 仅仅 是 一 个 巧 
合 ， 并 且 HDFS 不 知道 HBase 存 储 的 是 什么 ， 它 只 能 看 到 二 进 制 文件 。 
图 8-6 展 示 了 HFile 的 内 容 怎 样 在 整个 HDFS 块 中 进行 分 布 。 
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图 8-6 ”很 多 更 小 的 HFile 块 透明 地 存储 在 两 个 更 大 的 HDFS 块 中 


有 时 候 ， 用 户 有 必要 绕 过 HBase 并 直接 访问 一 个 HFile ， 例 如 ， 检 
0 
JLĦ: 


$ ./bin/hbase org.apache.hadoop.hbase.io.hfile.HFile 


usage: HFile [-a] [-b] [-e] [-f < arg>] [-k] [-m] [-p] [-r < arg>] [-v] 
-a,--checkfamily Enable family check 
-b,--printblocks Print block index meta data 
-e,--printkey Print keys 
-f,--file < arg> File to scan. Pass full-path;e.g. 


hdfs://a:9000/hbase/ .META. /12/34 
-k, --checkrow Enable row order check;looks for out-of-order keys 
-m,--printmeta Print meta data of file 
-p,--printkv Print key/value pairs 
-r,--region < arg> Region to scan. Pass region name;e.g. '.META.,,1' 
-v,--verbose Verbose output;emits file and meta data delimiters 





上 面 的 例子 展示 了 输出 的 形式 (精简 过 ) 





$ ./bin/hbase org.apache.hadoop.hbase.io.hfile.HFile -f \ 


/hbase/testtable/de27e14ffc1f3fFff65ce424fcf14ae42/colfam1/2518469459313898 
451 \ 


-v -m -p 


Scanning -> /hbase/testtable/de27e14ffc1f3fff65ce424fcf14ae42/colfam1/2518 
469459313898451 


K: row-550/colfam1:50/1309813948188/Put/vlen=2 V: 50 
K: row-550/colfam1:50/1309812287166/Put/vlen=2 V: 50 
K: row-551/colfam1:51/1309813948222/Put/vlen=2 V: 51 
K: row-551/colfam1:51/1309812287200/Put/vlen=2 V: 51 
K: row-552/colfam1:52/1309813948256/Put/vlen=2 V: 52 
K: row-698/colfam1:98/1309813953680/Put/vlen=2 V: 98 
K: row-698/colfam1:98/1309812292594/Put/vlen=2 V: 98 
K: row-699/colfam1:99/1309813953720/Put/vlen=2 V: 99 
K: row-699/colfam1:99/1309812292635/Put/vlen=2 V: 99 


Scanned kv count -> 300 

Block index size as per heapsize: 208 
reader=/hbase/testtable/de27e14ffc1f3fff65ce424fcf14ae42/colfam1/ \ 
2518469459313898451, compression=none, inMemory=false, \ 
firstKey=row-550/colfam1: 50/1309813948188/Put, \ 
lastKey=row-699/colfam1 : 99/1309812292635/Put, avgKeyLen=28, avgValueLen=2, \ 
entries=300, length=11773 
fileinfoOffset=11408 , dataIndexOffset=11664, dataIndexCount=1, \ 
metaIndexOffset=0,metaIndexCount=@, totalBytes=11408, entryCount=30@, \ 
version=1 

Fileinfo: 

MAJOR_COMPACTION_KEY = \xFF 

MAX_SEQ_ID_KEY = 2020 

TIMERANGE = 1309812287166... .1309813953720 

hfile.AVG_KEY_LEN = 28 

hfile.AVG VALUE LEN = 2 

hfile.COMPARATOR = org.apache.hadoop.hbase.KeyValue$KeyComparator 
hfile.LASTKEY = \x00\xð7row-699\x07colfam199\x00\x00\x010\xF6\XxE5 |\x1B\ xð 
4 


Could not get bloom data from meta block 





输出 的 第 一 部 分 是 序列 化 的 KeyValue 实例 所 存储 的 真实 数据 。 第 





二 部 分 转 存 内 部 的 HFile.Reader 属性 和 trailer 块 的 详细 信息 。 最 后 一 
个 部 分 以 Fileinfo 开头 ， 是 file info 块 的 值 。 


这 里 提供 的 信息 是 有 价值 的 ， 例 如 ， 用 来 确认 一 个 文件 是 否 被 压缩 
过 以 及 所 使 用 的 压缩 类 型 。 它 也 会 显示 已 经 存储 了 多 少 个 单元 ， 它 们 的 
键 和 值 的 平均 大 小 。 在 这 个 例子 中 ， 上 面 创 建 的 键 比值 大 得 多 。 这 是 因 
为 KeyValue 类 需要 存储 许多 相关 数据 ， 下 面 再 进一步 解释 。 


8.2.5 KeyValue 格式 


本 质 上 ，HFile 中 的 每 个 KeyValue 都 是 一 个 低级 的 字 节 数组 ， 它 
人 允许 零 复制 访问 数据 。 图 8-7 显 示 了 所 包含 数据 的 布局 。 








Key 
Value | Row | Column Column Column Time | Key mn 
| tt | | a | Goie va 
图 8-7  KeyValue 格式 


该 结构 以 两 个 分 别 表 示 键 长 度 (Key Lengh) 和 值 长 度 (Value 
Lengh) 的 定 长 数字 开始 。 有 了 这 个 信息 ， 用 户 就 可 以 在 数据 中 跳跃 ， 
例如 ， 可 以 忽略 键 直 接 访 问 值 。 其 他 情况 下 ， 用 户 也 可 以 从 键 中 获取 必 
要 的 信息 。 一 旦 其 被 转换 成 一 个 KeyValue 的 Java 实 例 ， 用 户 就 能 通过 
对 应 的 getter 方 法 得 到 更 多 的 细节 信息 ， 在 3.2.1 节 的 “KeyValue 类 ”部 分 
有 详细 介绍 。 


上 面 的 例子 中 ， 平 均 键 比 平 均值 大 的 原因 可 以 归结 为 键 中 包含 的 数 
H: 它 包 含 了 指定 单元 的 全 维度 内 容 。 键 包含 了 行 键 、 列 族 名 和 列 限 
定 符 等 。 相 对 于 一 个 较 小 的 有 效 负 载 ， 这 将 导致 相当 巨大 的 开销 。 如 果 
用 户 处 理 的 值 较 小 ， 那 么 应 当 保持 键 尽量 小 。 选 择 一 个 短 的 行 和 列 键 
〈 列 族 名 是 一 个 单字 节 ， 同 时 列 限定 符 也 一 样 短 ) 来 保证 键 值 比率 合 





适 。 

男 一 方面 ， 压 缩 有 助 于 缓解 这 一 问题 ， 因 为 它 着 眼 于 有 限 的 数据 窗 
口 ， 并 且 其 中 所 有 重复 的 数据 都 能 够 被 有 效 地 压缩 。 存 储 文件 中 所 有 的 
KeyValue 都 被 有 序 地 存储 ， 这 样 有 助 于 把 类 似 的 键 〈 如 果 用 户 使 用 了 
版 本 ， 那 么 相似 的 值 也 会 这 样 ) 放 在 一 起 。 


8.3 WAL 


region 服 务 器 会 将 数据 保存 到 内 存 中 ， 直 到 积攒 足够 多 的 数据 再 将 
其 刷 写 到 硬盘 上 ， 这 样 可 以 避免 创建 很 多 小 文件 。 存 储 在 内 存 中 的 数据 
古 不 稳定 的 ， 例 如 ， 在 服务 器 断 电 的 情况 下 数据 就 可 能 会 丢失 。 这 是 一 
个 典型 的 问题 ， 已 经 在 8.1 节 中 进行 了 解释 。 


一 个 比较 常见 的 解决 这 个 问题 的 方法 是 预 写 日 志 (WAL) ©; 
次 更 新 《也 叫做 “编辑 ") 都 会 写 入 日 志 ， 只 有 写 入 成 功 才 会 通知 客户 站 
操作 成 功 ， 然 后 服务 占 可 以 按 需 自由 地 批量 处 理 或 聚合 内 存 中 的 数据 。 


8.3.1 概述 


当 灾 难 发 生 的 时 候 ，WAL 惑 是 所 需 的 生命 线 。 类 似 于 MySQL 的 
binary 1og，WAL 存 储 了 对 数据 的 所 有 更 改 。 这 在 主 存储 融 出 现 意外 的 
情况 下 非 第 重要。 如果 服 务 絮 骨 尝 ， 它 可 以 有 效 地 回放 日 志 ， 使 得 服务 
铝 恢 复 到 服务 器 骨 尝 以 前 。 这 也 就 意味 看 如 果 将 记录 写 入 到 WAL 失 败 
时 ， 整 个 操作 也 会 被 认为 是 失败 的 。 


8.2.1 节 展示 了 WAL 是 怎样 和 HBase 的 架构 结合 在 一 起 的 。 因 为 它 被 
同一 个 region 服 务 器 的 所 有 region 共 圣 ， 所 以 对 于 每 一 次 修改 它 环 像 一 个 
日 志 中 心 一 样 。 图 8-8 展 示 了 编辑 流 是 怎样 在 memstore 和 和 WAL 之 间 分 流 
的 。 
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图 8-8 ”所 有 的 修改 都 先 保存 到 WAL， 再 传递 给 memstore 


处 理 过 程 如 下 : 首先 客户 端 启动 一 个 操作 来 修改 数据 。 例 如 ， 可 以 
对 put() 、delete() 和 increment() 进行 调用 。 每 一 个 修改 都 封装 到 
一 个 KeyValue 对 象 实例 中 ， 并 通过 RPC 调 用 发 送出 去 。 这 些 调用 CHE 
想 情 况 下 ) 成 批 地 发 送 给 含有 匹配 region 的 HRegionServer 。 


一 旦 KeyValue 实例 到 达 ， 它 们 会 被 发 送 到 管理 相应 行 的 HRegion 
实例 。 数 据 被 写 入 到 WAL， 然 后 被 放 入 到 实际 拥有 记录 的 存储 文件 的 
MemStore 中 。 实 质 上 ， 这 就 是 HBase 大 体 的 写 路 径 。 


最 后 ， 当 memstore 达 到 一 定 的 大 小 或 是 经 历 一 个 特定 的 时 间 之 后 ， 
数据 就 会 异步 地 连续 写 入 到 文件 系统 中 。 在 写 入 的 过 程 中 ， 数 据 以 一 种 
不 稳定 的 状态 存放 在 内 存 中 ， 即 使 在 服务 器 完全 朋 尝 的 情况 下 ，WAL 
也 能 够 保证 数据 不 会 丢失 ， 因 为 实际 的 日 志 存 储 在 HDFS 上 。 其 他 服务 
名 可 以 打开 日 志文 件 然 后 回放 这 些 修改 一 一 恢复 操作 并 不 在 这 些 骨 尝 的 
物理 服务 器 上 进行 。 




















8.3.2 HLog 类 


实现 了 WAL 的 类 叫做 HLog 。 当 HRegion 被 实例 化 时 ，HLog 实例 
会 被 当做 一 个 参数 传 入 到 HRegion 的 构造 器 中 。 当 一 个 region 接 收 到 一 
个 更 新 操作 时 ， 它 可 以 直接 将 数据 保存 到 一 个 共享 的 WAL 实 例 中 去 。 


HLog 类 的 核心 功能 是 append() 方法 。 注 意 ， 为 了 提高 性 能 ， 
在 Put ~ Delete 和 Increment 中 可 以 使 用 一 个 额外 的 参数 集 
合 : setWriteToWAL(false) 。 如 果 用 户 在 设置 时 调用 这 个 方法 ， 例 
如 ， 用 户 在 设置 一 个 Put 实例 时 调用 该 方法 会 导 臻 同 WAL 写 入 数据 的 过 
程 停止 。 这 也 是 为 什么 图 8-8 中 使 用 虚线 创建 的 回 下 的 箭头 来 表示 可 选 
步骤 。 默 认 情 况 下 ， 用 户 最 好 使 用 WAL。 但 是 ， 如 果 用 户 在 运行 一 个 
离线 的 大 批量 导入 数据 的 MapReduce 作 业 时 ， 其 可 以 获得 额外 的 性 能 ， 
但 是 需要 特别 注意 是 否 有 数据 在 导入 的 时 候 丢失 。 
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性 ”强烈 建议 用 户 不 要 毫 无 顾忌 地 关闭 WAL。 如 果 这 样 











做 了 ， 数 据 迟 早 会 丢失 并 且 HBase 不 能 恢复 丢失 的 且 未 写 入 到 
日 志 中 的 数据 。 


HLog 的 另 一 个 特性 是 追踪 修改 ， 这 个 特性 可 以 通过 使 用 序列 号 来 
实现 。 它 在 内 部 使 用 一 个 进程 安全 的 AtomicLong ， 且 从 0 开始 或 从 保 
存在 文件 系统 中 的 最 后 一 个 所 知 的 数字 开始 : 当 region 打 开 它 的 存储 文 
件 时 ， 它 读 取 存储 在 每 一 个 HFile 中 meta 域 中 最 大 的 序列 号 ， 并 且 如 果 
这 个 序列 号 大 于 之 前 记录 的 序列 号 ， 它 就 会 把 HLog 的 序列 号 设 定 为 这 
个 值 。 所 以 在 打开 所 有 存储 文件 的 结尾 后 ，HLog 就 会 被 初始 化 以 反映 
存储 在 哪里 结束 以 及 从 哪里 继续 存储 。 


图 8-9 展 示 了 3 个 不 同 的 region， 它 们 存储 在 同一 个 region 服务 器 上 ， 
并 且 每 一 个 都 包含 不 同 的 行 键 范围 。 每 一 个 region 都 共享 同一 个 HLog 实 
例 。 这 意味 着 数据 按照 到 达 的 顺序 写 入 到 WAL 中 ， 当 日 志 需 要 回放 
(查看 8.3.7 节 ) 时 会 产生 额外 工作 。 但 是 由 于 这 很 少 发 生 ， 所 以 最 优 的 


























做 法 就 是 按 顺 序 存储 ， 这 样 能 够 提供 最 好 的 IO 性 能 。 
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图 8-9 WAL 按照 修改 的 时 间 顺 序 存储 ， 包 括 在 同一 个 服务 器 上 的 所 有 region 
8.3.3 HLogKey 类 


WAL 当 前 使 用 的 是 Hadoop 的 SequenceFile ， 这 种 文件 格式 按照 
键 / 值 集合 的 方式 存储 记录 。 对 WAL 来 说 ， 值 仅仅 是 客户 端 发 送 的 修改 
请 求 。Key 被 HLogKey 实例 代表 : 由 于 KeyValue 仅仅 代表 行 键 、 列 
族 、 列 限定 词 、 时 间 惟 、 类 型 以 及 值 ， 所 以 要 有 一 个 地 方 来 存储 
KeyValue 的 归属 ， 即 region 和 表 名 ， 这 个 信息 存储 在 HLogKey 


中 。HLogKey 还 存储 了 上 和 面 所 所 到 的 序列 号 。 每 一 条 记录 的 数字 是 递增 
的 ， 以 保持 一 个 连续 的 编辑 序列 。 


它 还 记录 了 写 入 时 间 ， 这 是 一 个 表示 修改 是 什么 时 候 被 写 入 到 日 志 
的 时 间 戳 。 最 后 ， 这 个 类 存储 了 多 个 集群 之 间 进 行 复制 所 需要 的 集群 
ID (cluster ID) 。 


8.3.4 WALEdit 类 


ZP ig ACIS BE “MB AB 22 EIR Bl AWALEdit 实例 。 它 通过 
日 志 级 别 来 管理 原子 性 。 假 设 更 新 了 一 行 中 的 10 列 ， 每 一 列 或 每 一 个 单 
元 格 都 是 一 个 单独 的 KeyValue 实例 。 如 果 服 务 器 将 它们 中 的 5 个 写 入 到 
WAL 后 就 失败 了 ， 有 用户 就 会 得 到 一 半 修 改 内 容 被 持久 化 了 的 行 。 


这 可 以 通过 将 包含 多 个 单元 格 的 ， 且 所 有 被 认为 是 原子 的 更 新 都 写 
入 到 一 个 WALEdit 实例 中 来 解决 。 这 一 组 的 修改 都 会 在 一 次 操作 中 被 写 
入 ， 以 保证 日 志 的 一 致 性 。 





Fa 
nx 
by 
一 一 ”HBase 在 0.90.x 之 前 的 版 本 中 单独 保存 KeyValue 实 
例 。 


8.3.5 LogSyncer 类 


表 的 描述 符 人 允许 用 户 设置 一 个 叫做 延迟 日 志 刷 写 (deferred log 
flush) 的 标志 ， 这 个 标志 已 经 在 5.1.2 节 中 进行 了 解释 。 这 个 值 默 认 
为 false ， 这 童 味 着 每 一 次 编辑 被 发 送 到 服务 器 时 ， 它 都 会 调用 写 日 志 
的 sync() 方法 。 这 个 调用 强迫 写 入 日 志 的 更 新 都 会 被 文件 系统 确认 ， 
所 以 用 户 获 得 了 持久 性 保证 。 


不 着 的 是 ， 调 用 这 个 方法 会 涉及 一 对 六 的 服务 此 管道 写 ( 其 中 NN 是 
WAL 文 件 的 复制 因子 ) 。 由 于 这 是 一 个 高 代价 的 操作 ， 所 以 可 以 选择 


稍微 延迟 这 个 调用 ， 并 让 它 在 后 台 执 行 。 记 住 ， 如 果 不 调 用 sync() 方 
法 ， 那 么 在 服务 器 出 现 故障 的 时 候 ， 将 有 一 定 几率 造成 数据 丢失 。 请 小 
心 使 用 这 个 设置 。 


管道 与 多 路 写 的 对 比 


当前 sync0 的 实现 是 管道 写 ， 这 意味 着 当 修 改 被 写 入 
时 ， 它 会 被 发 送 到 第 一 个 Data Node 进 行 存 储 。 一 旦 成 功 ， 
第 一 个 DataNode 就 会 把 修改 发 送 到 另 一 个 Data Node 来 进行 
相同 的 工作 。 只 有 3 个 DataNode 都 已 经 确认 了 写 操作 ， 客 户 
端 才 被 允许 继续 进行 。 








另 一 种 存储 修改 的 方法 是 多 路 写 ， 也 惑 是 写 入 被 同时 
发 送 到 3 台 主 机 上 。 当 所 有 主机 确认 了 写 操作 之 后 ， 客 户 端 
才 可 以 继续 。 








这 两 种 方法 的 区 别 是 管道 写 需 要 时 间 去 完成 ， 所 以 它 
有 很 高 的 延迟 ， 但 是 它 能 更 好 地 利用 网 络 带宽 。 多 路 写 有 
独 比 较 低 的 延迟 ， 因 为 客户 端 只 需要 等 竺 最 慢 的 DataNode 
确认 《假设 其 余 已 经 成 功 确认 ) 。 但 是 写 入 需要 共 译 发 送 
服务 器 的 网 络 带宽 ， 这 对 于 有 者 很 高 负载 的 系统 来 说 会 古 
一 个 瓶颈 。 




















目前 有 正在 进行 的 工作 能 让 HDFS 支 持 上 面 两 种 方式 ， 
这 能 让 你 选择 一 种 方式 来 达到 最 佳 性 能 。 


用 户 将 deferred log flush 标 志 位 设置 为 true 会 导致 修改 被 缓存 在 
region 服 务 器 中 ， 然 后 在 服务 器 上 LogSyncer 类 会 作为 一 个 线程 运行 ， 


负 员 在 非常 短 的 时 间 间 隔 内 调用 sync() 方法 。 默 认 的 时 间 间 隔 为 1 秒 ， 
可 以 通过 hbase.regionserver.optionallogflushinterval`` 属性 
来 设置 。 


注意 这 只 作用 于 用 户 表 : 所 有 的 目录 表 会 一 直 保 持 同 步 。 





8.3.6 LogRoller 类 


日 志 的 写 入 是 有 大 小 限制 的 。LogRoller 类 会 作为 一 个 后 台 线 程 运 
行 ， 并 且 在 特定 的 时 间 间 隔 内 滚动 日 志 。 这 可 以 通过 
hbase.regionserver.logroll.period 属性 来 控制 ， 默 认 值 是 1 小 
时 。 











每 60 分 钟 旧 的 日 志文 件 被 关闭 ， 然 后 开始 使 用 新 的 日 志文 件 。 经 过 
一 段 时 间 ， 系 统 会 积 斤 一 系列 数量 不 断 递 增 的 日 志文 件 ， 这 些 文件 也 盐 
要 维护 。LogRoller 会 调用 HLog.rollWriter() 方法 来 做 上 面 所 说 的 
滚动 当前 日 志文 件 的 工作 ， 接 着 HLog .rollWriter() 会 调 
用 HLog.clean01dLogs() 。 


HLog.cleanOldLogs() 会 检查 写 入 到 存储 文件 中 的 最 大 序列 号 是 
多 少 ， 这 是 因为 到 这 个 序列 号 为 止 〈 小 于 或 等 于 这 个 序列 号 ) 的 所 有 修 
改 都 已 经 被 保存 了 。 然 后 它 会 检查 是 不 是 有 日 志文 件 的 序列 号 都 小 于 这 
个 数字 。 如 果 是 的 话 ， 它 就 会 将 这 些 文 件 移动 到 .oldlogs 文件 夹 中 ， 留 
下 其 余 的 日 志 。 





























* 也 许 用 户 会 在 日 志文 件 中 看 见 以 下 用 涩 的 信息 。 





2011-06-15 01:45:48,427 INFO org.apache.hadoop.hbase.region server.HLog: \ 
Too many hlogs: logs=130,maxlogs=96;forcing flush of 8 region(s): 
testtable, row-500,1309872211320.d5a127167c6e2dc5106fe66c c8 4506f8.,... 


[L CR 





这 些 信息 被 打印 出 来 是 因为 需要 保留 的 日 志文 件数 超过 
了 设置 的 最 大 日 志文 件数 ， 但 是 仍 有 一 些 数据 更 新 没有 被 保 
存 。 造 成 这 种 情况 的 原因 之 一 是 文件 系统 负载 较 大 以 至 于 它 
不 能 以 新 数据 被 添加 进来 的 速率 来 存储 数据 ;否则 memstore 
的 刷 写 不 会 受 此 影响 。 








注意 ， 当 这 条 信息 被 打印 的 时 候 ， 服 务 器 会 进入 到 一 个 
特殊 的 模式 来 强制 刷 写 内 容 中 的 更 新 数据 ， 以 减少 需要 保存 
的 日 志 量 。 








其 他 控制 日 志 滚 动 的 参数 
有 hbase.regionserver.hlog.blocksize (设置 为 文件 系统 默认 的 
块 大 小 或 fs .local.block.size ， 默 认 值 是 32MB) 和 hbase.region 
server.logroll.multiplier ( 设 为 0.95) ， 这 个 参数 表示 当日 志 达 
到 块 大 小 的 959% 时 就 会 滚动 日 志 。 所 以 ， 不 管 日 志文 件 被 认为 已 经 满 
了 ， 还 是 经 过 一 定 的 时 间 文 件 达 到 了 预 设 的 大 小 ， 日 志文 件 就 会 被 滚 
动 。 
8.3.7 ”回放 

master 和 region 服务 器 需要 配合 起 来 精确 地 处 理 日 志文 件 ， 特 别 是 
需要 从 服务 器 失效 中 恢复 的 时 候 。WAL 用 来 保持 数据 更 新 的 安全 ， 而 
回放 则 是 一 个 使 得 系统 恢复 到 一 致 性 状态 的 更 加 复杂 的 过 程 。 
1. BAS 

因为 所 有 的 数据 更 新 都 会 被 写 入 到 region 服 务 器 中 的 一 个 基于 HLog 


的 日 志文 件 中 去 ， 为 什么 不 分 开 将 每 个 region 的 所 有 数据 更 改 都 号 入 到 
一 个 单独 的 日 志文 件 中 去 呢 ? 下 面 是 引 目 BigTable 论 文 的 相关 内 容 : 














如 果 我 们 将 不 同 表 的 日 志 提 交 到 不 同日 志文 件 中 去 的 
话 ， 就 需要 癌 GFS 并 发 地 写 入 大 量 文件 。 以 上 操作 依赖 于 
每 个 GFS 服 务 器 文件 系统 的 底层 实现 ， 这 些 写 入 会 导致 大 
量 的 硬盘 寻 道 来 同 不 同 的 物理 日 志文 件 中 写 入 数据 。 

















由 于 相同 的 原因 ，HBase 也 遵循 这 个 原则 : 同时 写 入 太 多 的 文件 ， 
且 需 要 保留 滚动 的 日 志 会 影响 系统 的 扩展 性 。 这 种 设计 最 终 是 由 底层 文 
件 系统 决定 的 。 虽 然 在 HBase 中 可 以 蔡 换 底层 文件 系统 ， 但 是 通常 情况 
下 安装 还 是 会 选用 HDFS。 


通常 情况 下 ， 以 上 设计 不 会 造成 什么 问题 ， 但 当 系 统 过 到 一 些 错 误 
时 ， 以 上 设计 可 能 将 带 来 一 些 麻 烦 。 如 果 用 户 的 数据 被 及 时 地 、 安 全 地 
持久 化 了 ， 那 么 所 有 事情 就 非常 正常 。 但 是 只 要 过 到 服务 器 朋 尝 ， 系 统 
就 需要 拆 分 日 志 ， 即 把 日 志 分 成 合适 的 片 ， 这 些 在 下 一 节 有 相应 的 摘 
述 。 现 在 的 问题 是 ， 所 有 的 数据 更 改 的 日 志 都 混在 一 个 日 志文 件 中 ， 并 
旦 没有 任何 索引 。 正 是 由 于 这 个 原因 ，master 不 可 能 立即 把 一 个 崩 尝 的 
服务 器 上 的 region 部 团 到 其 他 服务 器 上 ， 它 需要 等 待 对 应 region 的 日 志 被 
拆 分 出 来 。 如 果 服 务 器 朋 江 之 前 已 经 来 不 及 将 数据 更 新 刷 写 到 文件 系 
统 ， 对 应 的 需要 拆 分 的 WAL 数 量 也 将 非常 庞大 。 


2. 日 志 拆 分 


有 两 种 日 志文 件 需要 被 回放 的 情况 : 集群 启动 时 或 服务 失效 时 。 当 
master 启 动 的 时 候 这 也 包括 备用 的 master 接 管 系统 的 时 候 它 会 
检查 文件 系统 中 HBase 根 目录 .logs 文件 夹 下 是 不 是 有 日 志文 件 ， 以 及 这 
些 日 志 有 没有 分 配 的 region 服 务 器 。 日 志 的 名 字 不 仪 包 含 服 务 器 的 名 
字 ， 还 包含 服务 器 的 启动 码 (start code) 。 这 个 数字 会 在 每 次 region Hk 
务 右 重启 的 时 候 重 置 。master 可 以 通过 这 个 数字 来 检查 日 志 是 否 被 遗弃 
Te 



































master 还 需要 负责 监控 服务 器 如 何 使 用 ZooKeeper。 当 master 检 测 到 
一 个 服务 器 失效 时 ， 它 就 会 在 重新 分 配 region 到 新 的 服务 右前 立即 局 动 
一 个 进程 来 恢复 日 志文 件 。 这 项 工作 是 由 ServerShutdownHandler 类 





完成 的 。 


在 日 关中 的 数据 改动 被 回放 之 前 ， 日 志 需 要 被 单独 放 在 每 个 region 
对 应 的 单独 的 日 志文 件 中 。 这 个 过 程 叫 做 日 志 拆 分 (log splitling) : 读 
取 混 在 一 起 的 日 六， 并 且 所 有 的 条 目 都 按照 它 所 归属 的 region 来 分 组 。 
这 些 分 组 的 修改 记录 被 存放 在 一 个 紧 挨 着 目标 region 的 文件 中 以 供 接 下 
来 的 数据 恢复 过 程 使 用 。 


日 志 拆 分 的 实质 操作 过 程 几乎 在 每 一 个 HBase 版 本 中 都 不 太一 样 : 
早期 版 本 会 直接 在 master 上 通过 一 个 线程 来 读 取 文件 。 这 个 后 来 又 提升 
为 至 少 不 同 region 对 应 的 修改 是 通过 多 线程 的 方式 来 重新 执行 。 在 0.92.0 
版 本 中 ， 终 于 引入 了 分 布 式 日 志 拆 分 (distributed log splitting) 的 概 
念 ， 切 分 日 志 的 实际 工作 从 master 转 移 到 了 region 服 务 器 上 。 


现在 我 们 考虑 一 个 更 大 的 region 服 务 器 集群 ， 该 集群 有 很 多 的 region 
服务 器 和 很 大 的 日 志文 件 ， 过 去 master 只 能 分 别 串 行 地 恢复 每 个 日 志文 
件 ， 这 样 它 才 不 会 在 7O 和 内 存 使 用 方面 过 载 。 这 就 意味 着 ， 每 一 个 拥 
有 被 挂 起 的 数据 更 改 的 region 都 会 被 阻塞 ， 直 到 日 志 拆 分 以 及 恢复 完成 
之 后 才能 被 打开 。 

最 新 的 分 布 式 模式 使 用 ZooKeeper 来 将 每 一 个 被 丢弃 的 日 志文 件 分 
发 给 一 个 region 服 务 嚣 。 它 们 通过 监测 ZooKeeper 来 发 现 需 要 执行 的 工 
作 ， 一 旦 master 指 出 某 个 日 志 是 可 以 被 处 理 的， 那么 它们 会 竞争 这 个 任 
务 。 获 胜 的 region 服 务 器 就 会 在 一 个 线程 (为 了 不 使 已 经 负载 很 重 的 
region 服务 器 过 载 ) 中 读 取 并 且 拆 分 这 个 日 志文 件 。 


re 
一 一 可 以 通过 
hbase.master.distributed.log.splitting 设置 属性 来 
关闭 新 的 分 布 式 日 志 拆 分 。 设 置 该 项 为 false 可 以 停 用 分 布 
式 拆 分 ， 则 系统 只 能 直接 通过 master 来 进行 这 项 工作 。 





























在 非 分 布 式 模式 下 写 入 是 多 线程 的 ， 这 是 通过 


hbase.regionserver.hlog. splitlog.writer.threads 
属性 来 控制 的 ， 其 默认 值 为 3。 由 于 增加 这 个 值 后 ， 读 取 日 志 
的 性 能 很 可 能 会 受 限 于 单一 的 日 志 读 者 ， 所 以 用 户 需要 权 
衡 。 








拆 分 过 程 会 首先 将 数据 改动 写 入 到 HBase 根 目录 下 的 splitlog 暂 存 文 
件 夹 。 它 们 已 经 被 放置 在 与 所 需 的 目标 region 相 同 的 路 径 下 。 例 如 : 


© /hbase/.corrupt 

© /hbase/splitlog/foo. internal, 60020, 1309851880898 hdfs%3A%2F%2F \ 
localhost%2Fhbase%2F . logs%2F foo. internal%2C60020%2C1309850971208%2F \ 
foo. internal%252C60020%252C1309850971208 .1309851641956/testtable/ \ 


d9ffc3a5cd016ae58e23d7a6cb937949/recovered. edits/8000000000000002352 





为 了 与 其 他 日 志 区 分 开 能 够 执行 并 发 操作 ， 路 径 中 包含 了 日 志文 件 
名 。 路 径 中 还 包含 了 表 名 、region 名 (HMA) M recovered.edits 文件 
夹 。 最 后 ， 拆 分 文件 的 名 称 是 对 应 region 的 日 志 中 第 一 次 数据 更 改 所 对 
应 的 序列 ID。 


corrupt 文件 夹 包 含 所 有 不 能 被 解析 的 日 志文 件 。 这 种 情况 可 以 通 
过 hbase.hlog. split.skip.errors 属性 来 改变 ， 通 常 将 其 默认 设置 
为 true 。 这 表示 任何 不 可 以 从 文件 中 读 出 来 的 数据 更 改 都 会 使 整个 日 
志文 件 被 移动 到 .corrupt 文件 夹 中 。 如 果 将 这 一 标志 设置 为 false Ill 
会 抛 出 IOExecption 异常 ， 并 且 整 个 日 志 拆 分 过 程 都 会 被 停止 。 


一 旦 日 志文 件 被 成 功 拆 分 ， 则 每 个 region 对 应 的 文件 就 会 被 移动 到 
实际 的 region 目 录 。 然 后 region 就 可 以 使 用 对 应 的 日 志 来 恢复 数据 了 。 这 
也 就 是 为 什么 拆 分 需要 阻塞 打开 region， 因 为 它 需 要 首先 提供 挂 起 的 修 
改 来 回放 。 

3. 数据 恢复 


当 集群 启动 ， 或 region 从 一 个 region 服 务 器 移动 到 另 一 个 region 服 务 








器 时 ，region 都 会 被 打开 ， 且 此 时 region 会 首先 检查 recovered.edits 目录 
是 否 存 在 。 如 果 该 目录 存在 ， 它 就 会 打开 该 目录 中 的 文件 ， 并 开始 恋 取 
文件 所 包含 的 数据 更 改 记录 。 由 于 文件 是 按照 合 序 列 ID 的 文件 名 排序 
的 ，region 便 可 以 按照 序列 ID 的 顺序 来 恢复 数据 。 


任何 序列 ID 小 于 或 者 等 于 保存 在 硬盘 中 存储 文件 序列 ID 的 更 改 记 录 
都 会 被 忽略 ， 因 为 这 些 记 录 之 前 的 数据 已 经 被 刷 写 了 。 其 他 数据 更 新 都 
会 被 添加 到 对 旋 region 的 memstore 中 来 恢复 之 前 的 数据 状态 。 最 后 ， 一 
次 强制 的 memstore 刷 写 会 将 当前 数据 写 入 到 硬盘 中 。 


— E.recovered.edits 文件 夹 中 的 文件 都 被 处 理 完 ， 且 其 中 的 数据 更 
改 也 都 被 号 入 到 硬盘 后 ， 该 文件 夹 台 会 被 删除 。 当 出 现 文件 不 可 读 的 情 
况 时 ，hbase.skip.errors 属性 决定 了 接 下 来 系统 的 行为 : 该 属性 为 
默认 值 false 时 ， 整 个 region 恢 复 过 程 失 败 ; 该 属性 为 true 时 ， 对 应 文 
件 就 会 被 重 命名 为 原始 文件 名 加 上 .<currentTimeMi11is> 。 不 管 哪 
种 情况 ， 用 户 都 需要 小 心地 检查 日 志文 件 来 判断 为 什么 恢复 会 遇 到 问 
题 ， 人 然后 修复 问题 来 让 恢复 过 程 继 续 执行 。 


8.3.8 ”持久 性 


用 户 都 想 依靠 系统 来 保存 自己 写 入 的 所 有 数据 ， 不 论 系统 在 内 部 使 
用 了 什么 新 奇 的 算法 。 在 HBase 系 统 中 ， 用 户 可 以 尽量 降低 日 志 的 刷 写 
次 数 ， 也 可 以 在 每 次 数据 更 改 时 都 同步 日 志 。 不 管 怎 样 做 ， 用 户 都 需要 
依赖 上 文 提 到 的 文件 系统 来 做 最 后 的 持久 化 工作 。 用 来 存储 数据 的 输出 
流 已 经 被 刷 写 了 ， 但 是 对 应 的 数据 是 否 已 经 写 入 到 硬盘 中 了 呢 ? 我 们 在 
谈论 的 是 fsync 相 关 的 问题 。 对 HBase 来 说 ， 大 多 数 情 况 下 还 是 会 选用 
Hadoop 的 HDFS 作 为 存储 数据 的 文件 系统 。 


到 现在 为 止 ， 大 家 应 当 已 经 清楚 日 志 是 用 来 保证 数据 安全 的 。 正 是 
由 于 这 个 原因 ， 日 志 有 可 能 保持 打开 状态 一 小 时 (或 者 更 多 ， 如 果 用 户 
配置 过 的 话 ) 。 随 着 数据 被 不 断 写 入 ， 新 的 键 / 值 对 被 写 入 
到 SequenceFile 中 ， 同 时 也 间断 地 刷 写 到 硬盘 中 。 


但 是 ， 这 种 使 用 文件 的 方式 并 不 是 Hadoop 设 计 的 使 用 模式 通常 情况 
下 ，Hadoop 会 提供 一 套 API 并 通过 它 同 文件 中 写 入 数据 (最 好 是 大 量 的 
数据 ) ， 此 后 立即 关闭 这 个 文件 ， 并 使 之 成 为 一 个 不 可 更 改 的 文件 ， 随 
后 大 家 都 可 以 多 次 读 取 这 个 文件 。 















































同时 文件 只 有 在 被 关闭 之 后 才 对 其 他 人 可 见 和 可 读 。 如 末 在 写 入 数 
据 的 过 程 中 进程 衣 尝 了， 那么 这 个 文件 很 大 可 能 性 会 被 认为 丢失 了 。 但 
对 日 志文 件 来 说 ， 能 够 读 到 上 一 次 服务 句 崩 尝 时 写 操 作 的 位 置 。 这 种 属 
性 被 添加 到 了 新 版 本 的 HDFS 中 ， 通 党 称 为 退 加 Cappend) 属性 。 








插曲 :HDFS 追 加 、hflush、hsync 和 sync...…..…. 


iB U0 Cappend) 功能 被 HBase 用 来 保证 持久 性 ， 但 过 去 
的 Hadoop 不 支持 此 功能 。 很 长 一 段 时 间 后 。HBase 才 支持 
了 此 功能 ， 并 需要 打 知 干 补 ]。 上 所 有 这 些 内 容 都 源 自 
HADOOP-1700 问 题 ( 
http://issues.apache.org/jira/browse/HADOOP-1700 ) 。 问 题 
是 在 Hadoop 0.19.0 中 被 提交 的 ， 其 本 意 是 解决 文件 追加 的 
问题 。 但 是 实际 并 不 是 这 样 ，Hadoop 0.19.0 的 追加 兼容 性 
很 差 ， 以 至 于 一 个 简单 的 hadoop fsck / 都 会 因为 HBase 
的 日 志文 件 是 打开 状态 而 报告 HDFS 已 损坏 。 





所 以 这 个 问题 又 在 HADOOP-4379 或 HDFS-200 ( 
http://issues.apache.org/jira/brawse/HDFS-200 ) 中 被 重新 处 
理 ， 并 实现 了 syncFs() 来 帮助 文件 的 同步 修改 更 可 靠 。 
有 一 段 时 间 我 们 使 用 一 种 特定 的 代码 〈 见 HBASE-1470， 
http://issues.apache.org/jira/browse/HBASE-1470 ) 来 检测 拥 
有 这 个 API 的 打 过 补丁 的 Hadoop。 


然后 是 HDFS-265 ( 
http://issues.apache.org/jira/browse/HDFS-265 ) ， 它 从 整体 
上 重新 审视 了 追加 的 想法 ， 并 引入 了 Syncable 接口 ， 这 个 
接口 拥有 hsync() 和 hflush() Wik. 


要 注意 的 是 SequenceFile.Writer.sync() 方法 和 上 
面 所 提 到 的 同步 方法 并 不 相同 : 它 向 文件 写 入 一 个 可 以 帮 
助 读 取 或 恢复 数据 的 同步 标记 。 








HBase 现 在 会 检测 当前 的 Hadoop 库 是 否 支持 syncFs() 或 hflush() 
。 如 果 在 写 入 日 志 的 时 候 触 发 sync() ， 则 HBase 会 在 内 部 调用 以 上 两 
种 方法 之 一 。 但 是 ， 如 果 HBase 运 行 在 一 个 不 需要 持久 的 设置 下 ， 它 什 
么 也 不 会 调用 。sync() 使 用 的 是 管道 写 来 保证 日 志文 件 中 数据 更 改 记 
录 的 持久 性 ， 这 部 分 内 容 在 8.3.5 节 中 进行 了 介绍 。 在 服务 器 骨 尝 的 情况 
下 ， 系 统 可 以 安全 地 从 废弃 的 日 志文 件 中 读 取 到 最 新 的 数据 更 改 。 


总 之 ， 如 果 没 有 使 用 Hadoop 0.21.0 及 以 后 的 版 本 ， 或 移植 了 追加 支 
持 的 特殊 的 0.20.x 版 本 的 话 ， 用 户 就 可 能 面 对 数 据 丢 失 。 更 多 信息 详 见 
2.2.3 节 中 的 “Hadoop” 部 分 。 








8.4 读 路 径 


HBase 的 每 个 列 族 使 用 多 个 存储 文件 来 进行 数据 存储 ， 这 些 文 件 包 
含 着 实际 的 数据 单元 或 KeyValue 实例 。 当 memstore 中 存储 的 对 HBase 
的 修改 信息 最 后 作为 存储 文件 被 刷 写 到 硬盘 中 时 ， 这 些 文件 就 被 创建 
了 。 后 台 合 并 进程 通过 将 小 文件 写 入 到 大 文件 中 来 减少 文件 的 数目 ， 从 
而 保证 文件 的 总 数 在 可 控 范 围 之 内 。major 合 并 最 后 将 文件 集合 中 的 文 
件 合 并 成 一 个 文件 ， 此 后 刷 写 叉 会 不 断 创 建 小 文件 。 


由 于 所 有 的 存储 文件 都 是 不 可 变 的 ， 从 这 些 文件 中 删除 一 个 特定 的 
值 是 做 不 到 的 ， 通 过 重 写 存储 文件 将 已 经 航 删 除 的 单元 格 移 除 也 是 坚 
意义 的 。 码 碑 标 记 就 是 用 于 此 类 情况 的 ， 它 标记 着 “已 删除 ”信息 ， 这 个 
标记 可 以 是 单独 一 个 单元 格 、 多 个 单元 格 或 一 整 行 。 


假设 用 户 今天 在 给 定 的 一 行 中 写 入 了 一 列 数 据 ， 然 后 在 未 来 的 几 天 
里 不 停 地 在 其 他 几 行 中 添加 数据 ， 然 后 再 在 之 前 给 定 行 的 其 他 列 中 写 入 
数据 。 需 要 考虑 的 问题 是 ， 假 设 之 前 添加 的 列 数据 已 经 作为 KeyValue 
在 硬盘 存储 了 一 段 时 间 ， 由 于 新 写 入 的 列 数据 会 存储 在 memstore 里 或 者 
也 被 刷 写 到 硬盘 中 ， 那 么 逻辑 上 的 一 整 行 数据 到 底 存 储 在 了 哪里 呢 ? 


换 句 话说 ， 当 使 用 Shell 对 那 一 行 执行 一 个 get 命令 时 ， 系 统 怎么 知 
道 该 返回 什么 ”作为 客户 端 ， 我 们 希望 两 列 都 被 返回 一 一 就 好 像 它 们 被 
存储 在 同一 个 实体 中 一 样 。 但 是 实际 上 数据 存储 在 分 离 的 KeyValue 实 
例 中 ， 横 跨 任 意 数 目 个 存储 文件 。 


如 末 删 除了 最 初 的 列 值 ， 然 后 再 次 执行 get 命 令 时 ， 我 们 期 望 这 个 
值 已 经 被 删除 ， 然 而 实际 上 它 仍然 存在 于 某 处 ， 只 是 基 碑 标记 指出 用 户 
己 经 删除 了 它 。 但 是 标记 可 能 存储 在 距离 所 需 删 除数 据 很 远 的 地 方 。 

8.1 市 详细 解释 了 这 个 方式 背后 的 架构 。 


HBase 通 过 使 用 QueryMatcher 和 ColumnTracker 来 解决 这 个 问 
题 : 其 中 一 个 需要 精确 地 匹配 用 户 要 取出 的 列 ， 另 一 个 则 需要 包含 所 有 
的 列 。 它 们 都 可 以 设 定 最 大 匹配 的 版 本 数 。 它 们 都 会 跟踪 要 被 包含 到 最 
终结 果 中 的 内 容 。 



































为 什么 Get 都 是 Scan 


在 HBase 以 前 的 版 本 中 ，Get 方法 是 作为 一 个 单独 的 代 
码 路 径 实现 的 。 在 最 近 的 版 本 中 ， 这 个 方式 作出 了 改变 并 
且 在 内 部 完全 被 Scan API 所 使 用 的 代码 蔡 换 。 





既然 单独 一 个 Get 应 该 会 比 Scan 快 ， 用 户 可 能 会 怀疑 
为 什么 要 这 样 做 。 一 个 单独 的 代码 路 径 可 以 使 用 一 类 特殊 
的 知识 来 快速 访问 用 户 毛 要求 的 数据 。 


这 时 该 介绍 一 下 HBase 的 架构 了 。HBase 中 没有 可 以 使 
我 们 直接 访问 特定 行 或 列 的 索引 文件 。HFile 中 最 小 的 单 
元 是 块 ， 并 且 为 了 找到 所 要 求 的 数据 ，RegionSserver ft 
码 和 它 底 层 实 现 的 Store 实例 必须 载 入 整个 可 能 存储 着 所 
需 数 据 的 块 并 且 扫 描 这 个 块 。 以 上 就 是 Scan 做 的 事情 。 


也 就 是 说 ， 一 次 Get 就 仅仅 对 单独 一 行进 行 扫 描 。 用 
户 可 以 创建 一 次 Scan ， 并 且 将 开始 行 设 定 为 你 寻找 的 那 
行 ， 且 将 结束 行 设 定 为 start row + 1。 








在 读 取 所 有 存储 文件 来 查找 匹配 的 条 目 之 前 ， 需 要 有 一 个 快速 的 排 
除 检查 阶段 : 使 用 时 间 惟 以 及 可 选 的 布 降 过 滤器 来 跳 过 那些 绝对 不 包含 
所 需 KeyValue 的 文件 。 然 后 ， 扫 描 剩 下 的 存储 文件 以 及 memstore 来 寻 
找 匹配 的 键 。 

扫描 是 通过 Regionscanner 类 实现 的 ， 该 类 为 每 一 个 Store 实例 
获取 一 个 StoreScanner ， 每 个 store 实例 代表 着 一 个 列 族 。 如 果 读 操 
作 排 除了 某 些 列 族 ， 那 么 它们 的 存储 也 同样 会 被 省 略 。 

StoreScanner 类 合并 了 Store 实例 包含 的 存储 文件 和 memstore。 
这 也 是 基于 布 降 过 滤 堪 或 时 间 惟 的 筛选 发 生 的 地 方 。 如 果 用 户 想 要 最 近 


一 个 小 时 内 的 版 本 的 数据 ， 那 么 用 户 可 以 跳 过 所 有 存储 时 间 超 过 最 近 一 
小 时 的 文件 : 它们 不 会 包含 任何 有 用 的 信息 。9.1 节 详细 介绍 了 如 何 排 
除 无 用 信息 以 及 如 何 利用 StoreScanner 。 


StoreScanner 类 也 同样 包含 了 QueryMatcher (这 里 
是 ScanQueryMatcher 类 ) ， 它 会 记录 到 底 哪 个 KeyValue 需要 被 包含 
在 最 终 的 结果 中 。 


RegionScanner 在 内 部 是 使 用 KeyValueHeap 类 ， 并 按时 间 惟 排 
序 来 处 理 存储 扫描 器 。StoreScanner 也 使 用 这 个 类 按照 同样 的 方法 对 
存储 进行 排序 。 这 保证 了 用 户 可 以 按照 正确 的 顺序 来 读 取 KeyValue 
〈 例 如， 按时 间 惟 降序 ) 。 


当 存 储 扫描 器 打开 的 时 候 ， 它 们 会 直接 定位 到 所 要 求 的 行 键 上 ， 或 
者 在 调用 get() 的 情况 下 定位 到 下 一 个 不 匹配 的 行 键 上 《大 于 起 始 键 的 
BE) 。 然 后 扫描 器 吏 准 备 读 取 数 据 了 ， 图 8-10 展 示 了 其 运行 机 制 。 


p Sorted, read sequentially 


Store: Colfam1 Store: Colfam1 








图 8-10” 横 跨 存 储 文件 、 硬 盘 以 及 内 存 来 存储 或 扫描 行 


对 于 一 次 get() 调用 ， 所 有 的 服务 器 需要 做 的 是 在 RegionScanner 
上 调用 next() 。 这 个 调用 在 内 部 读 取 所 有 可 能 会 包含 在 最 后 结果 中 的 
东西 。 这 将 包含 所 有 需要 的 版 本 。 假 设 一 列 有 3 个 版 本 ， 用 户 要 求 取得 




















所 有 的 版 本 ， 而 这 3 个 KeyValue 实例 有 可 能 分 散在 任意 存储 文件 、 硬 盘 
以 及 内 存 中 。next () 一 直 读 取 所 有 的 存储 文件 直到 到 达 下 一 行 ， 或 已 
经 找到 足够 多 的 版 本 来 返回 数据 。 


与 此 同时 ， 它 也 会 持续 跟踪 删除 标记 。 由 于 它 扫 描 过 当前 行 所 有 的 
KeyValue ， 因 此 会 遇 到 这 些 删 除 标记 ， 并 会 意识 到 所 有 时 间 惟 小 于 或 
等 于 此 标记 的 数据 都 是 已 经 被 删除 了 的 数据 。 


图 8-10 将 一 个 逻辑 行 表示 为 一 组 KeyValue ， 其 中 一 些 在 相同 的 存 
储 文件 中 ， 一 些 在 另外 一 些 文件 中 ， 并 能 够 横路 多 个 列 族 。 一 个 存储 文 
件 和 memstore 在 基于 时 间 惟 和 布 降 过 滤 堪 的 排除 过 程 中 被 跳 过 。 最 后 一 
个 存储 文件 中 的 删除 标记 被 用 来 屏蔽 条 目 ， 但 是 它们 仍然 属于 同一 行 数 
据 。 扫 摘 喜 一 一 被 表示 为 存储 文件 附近 的 箭头 一 一 处 于 文件 中 的 第 一 个 
符合 的 条 目 或 是 紧 挨 着 所 要 求 的 行 ， 后 者 是 因为 这 个 存储 文件 中 没有 和 直 
接 匹 配 的 条 目 。 

在 调用 next() 的 期 间 ， 只 有 那些 在 合适 的 行 上 的 扫描 器 才 会 被 考 
虑 。 内 部 循环 会 按照 时 间 降 序 一 个 接 一 个 地 从 存储 文件 中 读 取 
KeyValue ， 直 到 它们 超过 所 需要 的 行 键 。 


对 于 扫描 操作 ，Resultscanner 会 重复 调用 next() 直到 到 达 结 束 









































最 终 的 结 末 是 符合 给 定 get 或 scan 操作 要 求 的 一 组 KeyValue Su 
例 。 它 们 会 返回 给 客户 端 ， 然 后 客户 端 可 以 通过 APT 方 法 来 访问 其 中 所 
包含 的 列 。 








8.5 region? 4k 


为 了 让 客户 端 找 到 包含 特定 主键 的 region，HBase 提 供 了 两 张 特殊 
的 目录 表 -ROOT- 和 .META. 。 © 





-ROOT- 表 用 来 查询 所 有 .META. 表 中 region 的 位 置 。HBase 的 设计 
中 只 有 一 个 root region， 即 root region 从 不 进行 拆 分 ， 从 而 保证 类 似 于 
B+ 树 结构 的 三 层 查 找 结 构 : 第 一 层 是 ZooKeeper 中 包含 root region 位 置信 
恩 的 节点 ， 第 二 层 是 从 -ROOT- 表 中 查找 对 应 meta region 的 位 置 ， 第 三 
层 是 从 .META. 表 中 查找 用 户 表 对 应 region 的 位 置 。 

目录 表 中 的 行 键 由 region 的 表 名 、 起 始 行 和 ID (通常 是 以 晤 秒表 示 
的 当前 时 间 ) 连接 而 成 。 从 HBase 0.90.0 版 本 开始 ， 主 键 上 有 另 一 个 散 
列 值 附加 在 后 面 。 不 过 目前 这 个 附加 部 分 只 用 在 用 户 表 的 region 中 。 示 
例 请 见 8.2.3 节 。 


re 
一 一 > 不 用 担心 三 层 定位 策略 ，BigTable 的 论文 中 闲 述 了 
当 .META. 的 region 大 小 为 128 MB 时 ， 它 可 以 定位 234 个 
region， 或 201 字 节 的 数据 〈 当 region 为 128 MB 时 ) 。 由 于 
region 的 大 小 可 以 在 对 存储 模式 没有 任何 影响 的 情况 下 进行 扩 
展 ， 所 以 这 只 是 一 个 保守 估计 ， 在 数据 量 增加 时 ，region 的 大 
小 可 以 适当 调 高 。 











虽然 客户 端 缓存 了 region 的 地 址 ， 但 是 初始 化 需求 时 需要 重新 查找 
region， 例 如 ， 绥 存 过 期 了 ， 并 发 生 了 region 的 拆 分 、 合 并 或 移动 。 客 户 
端 库 函 数 使 用 递归 查找 的 方式 从 目录 表 中 重新 定位 当前 region 的 位 置 。 
它 会 从 对 应 的 .META. region 碍 找 对 应 行 键 的 地 址 。 如 果 对 应 的 .META. 
region 地 址 无 效 ， 它 就 向 root 表 询问 当前 对 应 的 .META. 表 的 位 置 。 最 

















后 ， 如 果 连 root 表 的 地 址 也 失效 了 ， 它 会 同 ZooKeeper 节 点 查询 root 表 的 
新 地 址 。 


在 最 坏 的 情况 下 ， 客 户 端 需要 6 次 网 络 往返 请 求 来 定位 一 个 用 户 
region， 由 于 系统 假设 了 region 的 分 配 情况 ， 特 别 是 meta region 的 分 配 情 
况 不 会 经 党 变化 ， 所 以 只 有 当 碍 找 失 败 时 ， 客 户 端 才 会 认为 缓存 的 
region 地 址 失效 。 当 绥 存 为 空 时 ， 客 户 端 需要 3 次 网 络 往返 请 求 来 更 新 组 
存 。 如 果 用 户 想 减少 未 来 请 求 region 地 址 的 次 数 ， 可 以 在 请 求 之 前 预 刷 
写 缓存 地 址 。 参 考 3.6 节 详细 了 解 主动 刷 写 region 地 址 缓存 的 方法 。 














图 8-11 展 示 了 先 通过 meta 表 ， 最 终 通过 root 表 来 确定 一 个 用 户 region 
位 置 的 过 程 。 一 旦 获取 到 用 户 region 的 位 置 ， 其 数据 就 可 以 被 直接 访 
问 。 图 中 的 碍 询 被 编号 了 ， 并 假定 开始 时 缓存 是 空 的 。 如 果 缓 存 不 为 
空 ， 但 缓存 的 用 户 region、meta region 和 root region 的 位 置 都 失效 ， 则 需 
要 额外 的 3 次 查询 ， 即 总 共 需 要 6 次 碍 询 来 完成 这 次 定位 。 
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图 8-11 
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8.6 region 生命 周期 


region 的 各 种 状态 均 由 master 触 发 ， 并 使 用 AssignmentManager 类 
进 行 管理 。 这 个 类 会 从 region 的 下 线 (offline) 状态 开始 一 直 跟 踪 ， 并 
管理 它 的 状态 。 表 8-1 列 举 了 region 可 能 的 所 有 状态 。 


表 8-1 region 的 可 能 


= 
服务 器 开始 打开 region 











关闭 region 的 请 求 被 送 到 服 

服务 器 正 在 处 理 要 关 闭 的 egion 
cgion 忆 经 被 关 闭 

服务 器 开始 切 分 region 











状态 的 改变 可 能 由 master 发 起 ， 也 可 能 由 region 服 务 器 友 起 。 例 
如 ， 当 master 把 region 分 配 到 一 个 服务 器 后 ， 由 服务 器 来 完成 打开 过 


程 。 此 外 ， 拆 分 过 程 由 region 服 务 器 发 起 ， 这 个 过 程 可 能 引发 一 系列 的 
region 关 闭 和 打开 事件 。 


由 于 事件 都 是 分 布 式 的 ， 服 务 器 使 用 ZooKeeper 来 跟踪 一 个 特定 
znode 的 状态 。 


8.7 ZooKeeper 


从 0.20.x 版 本 开始 ，HBase 使 用 ZooKeeper 作 为 其 协同 服务 组 件 。 其 
主要 功能 包括 跟踪 region 服 务 器 、 保 存 root region 的 地 址 等 。 在 0.90.x 中 
引入 了 一 个 新 的 master 实 现 ， 使 其 与 ZooKeeper 集 成 得 更 紧密 。 它 使 
HBase 可 以 移 除 在 master 和 region 服 务 器 间 传 递 的 心跳 信息 ， 这 部 分 功能 
现在 被 放 在 了 ZooKeeper 中 。 现 在 ， 如 果 某 一 方 有 变动 ，HBase 能 及 时 通 
知 到 集群 的 其 他 部 分 ， 而 之 前 需要 等 待 一 个 固定 的 时 间 间 隔 才 能 发 出 通 
Fil 


这 里 有 HBase 建 立 的 znode 列 表 。 默 认为 /hbase ， 这 个 znode 的 名 称 


由 zookeeper.znode.parent 属性 决定 。 以 下 是 znode 的 列表 以 及 它们 
的 作用 。 


Fa 
nA 
` ` 


ae + 

tt 1 

一 人 例子 使 用 了 ZooKeeper 命 令 行 接口 (简写 为 CLI) 来 
执行 命令 。 用 户 可 以 按照 以 下 方法 进行 启动 : 





$ $ZK_HOME/bin/zkCli.sh -server < quorum-server> 





输出 的 条 些 内 容 被 简化 了 。 


/hbase/hbaseid 





cluster ID ， 与 存储 在 HDFS 上 的 *hbase.id* 文 件 内 容 相 同 ， 例 
如 : 


[zk: localhost(CONNECTED) 1] get /hbase/hbaseid 


e627e130-0ae2-448d -8bb5-117a8afO6e97 


/hbase/master 





包含 服务 器 名 〈 参 见 5.2.5 节 ) ， 例 如 : 


[zk: localhost(CONNECTED)2] get /hbase/master 


foo. internal, 60000, 1309859972983 


/hbase/replication 





包含 副本 信息 ， 参 见 8.8.2 节 。 


/hbase/root-region-server 





包含 -ROOT- region 所 在 region 服 务 器 的 机 器 名 ， 这 个 经 常 在 region 
定位 中 使 用 《参考 8.5 节 ) 。 例 如 : 


[zk: localhost(CONNECTED) 3] get /hbase/root-region-server 


rs1.internal , 60000, 1309859972983 


/hbase/rs 





这 个 znode 是 作为 所 有 region 服 务 器 的 根 节点 ， 集 群 用 它 来 跟踪 服务 
ae 每 个 znode 都 是 临时 节点 ， 并 且 node 名 是 region 服 务 器 的 名 称 ， 
例如 : 


[zk: localhost(CONNECTED)4] 1s /hbase/rs 


[rs1.internal,60000,1309859972983,rs2.internal,60000,1309859345233] 


/hbase/shutdown 








这 个 节点 用 来 跟踪 集群 状态 信息 ， 其 包括 集群 月 动 的 时 间 ， 以 及 当 
集群 被 关闭 时 的 空 状 态 ， 例 如 





[zk: localhost(CONNECTED) 5] get /hbase/shutdown 


Tue Jul 65 11:59:33 CEST 2011 


/hbase/splitlog 





协调 日 志 拆 分 相关 的 父 节 点 ， 参 见 8.3.8 市 的 “日 志 拆 分 ”部 分 : 





[zk: localhost(CONNECTED) 6] 1s /hbase/splitlog 


[hdfs%3A%2F%2Flocalhost%2Fhbase%2F . logs%2Ffoo. internal%2C600@20%2C \ 
1309850971208%2F Foo. internal%252C60020%252C1309850971208 . 1309851636647 


hdfs%3A%2F%2F localhost%2Fhbase%2F . logs%2F foo. internal%2C600@20%2C \ 
1309850971208%2F foo. internal%252C60020%252C1309850971208 . 1309851641956 


hdfs%3A%2F%2F localhost%2Fhbase%2F . logs%2F foo. internal%2C60@20%2C \ 
1309850971208%2F foo. internal%252C60020%252C1309858971208 . 1309851784396 


[zk: localhost(CONNECTED) 7] get /hbase/splitlog/ \ 


\hdfs%3A%2F%2Flocalhost%2Fhbase%2F .logs%2Fmemcachel.internal%2C \ 


60020%2C1309850971208%2Fmemcache1. internal%252C60020%252C1309850971208 
- \ 


1309851784396 


unassigned foo.internal, 60000, 1309851879862 


[zk: localhost(CONNECTED) 8] get /hbase/splitlog/ \ 


\hdfs%3A%2F%2Flocalhost%2Fhbase%2F .logs%2Fmemcachel.internal%2C \ 


60020%2C1309850971208%2Fmemcachel1. internal%252C60020%252C1309850971208 
- \ 


1309851784396 


owned foo.internal , 60000, 1309851879862 


[zk: localhost(CONNECTED) 9] 1s /hbase/splitlog 


[ RESCAN@000293834, hdfs%3A%2F%2F localhost%2Fhbase%2F..logs%2Fmemcachel. 


internal%2C60020%2C1309850971208%2Fmemcachel.internal%252C \ 

60020%252C1309850971268 . 1309851681118 , RESCANQ@Q00293827 ,RESCAN0O00029382 
8,\ 

RESCAN@@00293829 , RESCANQQ00293838 , RESCANQ@Q00293837 | 





这 个 例子 展示 了 许多 东西 : 用 户 可 以 看 到 被 拆 分 的 日 志 先 是 被 
unassign， 之 后 被 一 个 region 服 务 获 取 。RESCAN 节点 代表 





workers (region IRA #5) 要 进行 很 多 检查 工作 来 防止 拆 分 工作 在 其 他 机 
器 上 失败 。 


/hbase/table 


| 


当 表 被 禁用 ， 信 息 会 被 添加 到 这 个 znode 之 下 。 表 名 是 新 建 的 znode 
名 ， 内 容 是 “DISABLED”， 例 如 : 





[zk: localhost(CONNECTED) 10] 1s /hbase/table 


[testtable] 
[zk: localhost(CONNECTED) 11] get /hbase/table/testtable 


DISABLED 


/hbase/unassigned 





这 个 znode 被 AssignmentManager 用 来 跟踪 集群 的 region 状 态 。 它 
包含 未 打开 Copen) 的 region 的 znode， 不 过 znode 的 状态 是 变化 的 ， 
znode 名 是 region 的 散 列 值 。 例 如 : 


[zk: localhost(CONNECTED) 11] 1s /hbase/unassigned 


[8438203023b8cbba347eb6fc118312a7 | 





8.8 复制 


HBase 复 制 是 一 种 在 不 同 HBase 部 普 中 复制 数据 的 方法 。 它 可 以 作 
为 一 种 灾难 恢复 的 方法 ， 并 且 可 以 提供 HBase 层 的 高 可 用 性 。 同 时 在 实 
际 应 用 中 ， 例 如 ， 将 数据 从 一 个 面 问 页 面 的 集群 复制 到 一 个 MapReduce 
集群 ， 后 者 可 以 同时 处 理 新 数据 和 历史 数据 。 然 后 再 目 动 将 数据 传 回 面 
器 页 面 请 求 的 集群 。 








HBase 复 制 中 最 基本 的 架构 模式 是 “主推 送 ”(master-push) ， 因 为 
每 个 region 服 务 器 都 有 自己 的 WAL (或 HLog ) ， 所 以 及 很 容易 保存 现 
在 正在 复制 的 位 置 ， 其 类 似 于 其 他 众所周知 的 解决 方案 ， 例 如 ， 
MySQL 的 主 /从 复制 只 使 用 二 进 制 日 志 来 跟踪 修改 。 一 个 主 集群 可 以 将 
oe 目的 从 集群 ， 每 个 region 服务 器 都 会 参与 复制 自己 的 
Bro 

















Rill EAA RET, ARE RE Die EI, EZ 
间 的 连接 可 以 在 茶 些 时 间断 开 ， 在 主 集群 上 的 修改 不 能 马上 在 从 集群 上 
进行 同步 《最 终 一 致 性 ) 。 图 8-12 展 示 了 复制 的 工作 流程 和 架构 。 


Master Cluster Synchronous Call 


ooo0000000000 
[ern 


Synchronous Call 
oooooo0000000 


Synchronous Call 
oOooo0o0000000 


gi | HLog 
List 








图 8-12 ”集群 复制 架构 图 


这 里 使 用 的 复制 格式 与 MySQL 基 于 语句 的 复制 概念 相同 。 O 与 
SQL 语句 不 同 ， 所 有 的 NALEdits (包括 来 自 客户 端的 Put 和 Delete 产 
生 的 多 单元 格 操作 ) 都 会 被 复制 以 保证 原子 性 。 


来 自 每 个 region 服 务 器 的 HLog 是 HBase 复 制 的 基础 ， 并 且 只 要 它们 
需要 将 数据 复制 到 从 集群 ， 它 们 就 必须 被 保存 在 HDFS 上 。 每 个 region 服 
务 右 从 它 需 要 的 最 老 的 日 志 开 始 复制 ， 同 时 在 ZooKeeper 中 保存 当前 恢 
复 的 位 置 来 简化 错误 恢复 。 每 个 从 集群 恢复 的 位 置 可 能 不 同 ， 但 它们 处 
理 的 HLog 队列 内 容 是 相同 的 。 


参与 复制 的 集群 的 规模 可 以 不 对 等 ， 主 集群 会 通过 随机 分 配 尽量 均 
衡 从 集群 的 负载 。 


8.8.1 Log Edit 的 生命 周期 


接 下 来 将 介绍 了 一 条 数据 修改 如 何 从 客户 端 发 起 之 后 同 主 集群 区 
互 ， 并 同时 复制 到 从 集群 的 过 程 。 


1. 常规 处 理 


客户 端 利 用 HBase API 发 送 一 个 Put ~ Delete 或 Increment 到 
region 服 务 器 。 这 些 请 求 包含 的 键 / 值 对 被 region 服 务 器 转化 为 WALEdit 
， 同 时 WALEdit 会 被 复制 程序 检查 ， 并 以 列 族 为 单元 复制 数据 。 修 改 被 
添加 到 WAL 中 ， 并 把 实际 数据 添加 到 Memstore 。 


另外 一 个 线程 从 日 志 中 读 取 数据 (作为 批量 处 理 的 一 部 分 ) ， 并 且 
只 有 可 以 复制 的 KeyValue 被 保存 下 来 〈 只 有 在 拥有 用 户 数据 日 志 的 情 
况 下 ， 并 且 列 族 中 有 GLOBAL 域 定 义 的 复制 才 会 被 保存 ， 目 录 表 的 修改 
不 被 保存 〉。 当 缓冲 区 满 了 或 读 到 了 文件 末尾 ， 绥 冲 区 中 的 修改 被 发 送 
到 从 集群 一 个 随机 的 region 服 务 器 上 。 


同步 地 ， 当 region 服 务 器 收 到 这 些 修 改 后 ， 它 会 顺序 读 取 这 些 修 改 
信息 ， 并 且 把 它们 分 成 不 同 的 缓冲 区 ， 且 每 张 表 一 个 缓冲 区 。 一 旦 所 有 
的 修改 都 被 读 取 后 ， 每 个 缓冲 使 用 HBase 客 户 端 (使 用 HTablePoo1l 管 
理 的 HTable ) 来 把 缓冲 区 中 的 修改 写 入 表 中 。 这 样 可 以 达到 并 行 写 入 
的 效果 CMultiPut ) 。 




















在 主 集群 的 region 服 务 器 中 ， 当 前 WAL 中 被 复制 的 位 置 会 在 
ZooKeeper 中 注册 。 


2. 没有 反馈 的 从 集群 


数据 修改 信息 以 相同 的 方式 插入 到 主 集 群 。 在 另外 的 线程 中 ， 
region 服 务 器 读 出 日 志 、 过 滤 并 缓冲 修改 信息 ， 这 些 过 程 与 正常 过 程 一 
样 。 如 果 从 集群 的 region 服 务 器 没有 啊 应 RPC 请 求 ， 主 集群 的 region 服 务 
器 将 会 睡眠 并 按照 配置 的 次 数 重 试 。 如 果 从 集群 region 服务 器 还 是 不 可 
用 ， 主 集群 服务 器 会 重新 选择 一 台 从 集群 服务 器 来 提交 修改 。 


与 此 同时 ，WAL 会 回 深 并 存储 在 一 个 ZooKeeper 的 队列 中 。 日 志 被 
region 服务 器 归档 (归档 只 是 简单 地 把 日 志 从 region 服 务 器 的 一 个 目录 
ee ie ee stone E ae Peer 
路 径 。 


当 从 集群 最 终 可 用 之 后 ， 缓 冲 区 中 的 修改 会 被 按照 正 第 情况 执行 。 
主 集群 的 region 服 务 句 将 会 把 积压 的 日 志 复 制 到 从 集群 。 


8.8.2 ”内 部 机 制 
本 节 将 深入 介绍 复制 的 各 种 内 部 机 制 和 操作 。 
1. 挑选 要 复制 的 目标 服务 器 


当主 集群 region 服务 器 初始 化 复制 源 到 从 集群 时 ， 它 会 首先 用 提供 
给 它 的 集群 键 连接 从 集群 的 ZooKeeper 群 组 (使 用 到 的 集群 键 包括 
hbase.zookeeper.quorum 、zookeeper.znode.parent 和 
hbase.zookeeper.property.clientPort 的 值 ) 。 然 后 它 会 扫 
fii/hbase/rs 目录 来 发 现 所 有 可 用 的 汇聚 《可 以 用 来 接收 复制 流 的 服务 
at) 并 随机 挑选 一 部 分 服务 器 来 复制 数据 〈 默 认 是 10%) 。 例 如 ， 当 从 
集群 有 150 台 服务 器 时 ，15 台 服务 器 会 被 挑选 为 接收 复制 流 的 服务 器 ， 
由 于 所 有 的 主 集群 region 服 务 亏 都 会 加 这 10% 的 服务 器 发 送 复制 流 ， 所 
以 很 可 能 从 集群 region 服 务 器 的 负载 非常 高 。 例 如 ， 当 主 集群 中 10 台 服 
务 器 复制 数据 到 一 个 5 人 台 服 务 器 的 从 集群 时 ， 主 集群 每 次 复制 时 都 会 随 
既 率 会 变 高 。 

















2. 跟 踩 日 志 中 被 复制 到 的 位 置 


每 个 主 集 群 的 region 服 务 器 在 znode 目 录 中 都 有 它 自己 对 应 的 
znode， 并 且 每 个 从 集群 都 有 其 对 应 的 znode (5 个 从 集群 ， 就 会 有 5 个 
znode 被 创建 ) ， 并 且 每 个 znode 都 包含 一 个 需要 处 理 的 HLog 队列 。 
个 队列 都 会 跟踪 region 服 务 器 创建 的 HLog ， 不 过 它们 队列 的 大 小 可 能 不 
同 。 例 如 ， 如 果 一 个 从 集群 一 段 时 间 不 可 用 ， 那 么 它 的 HLog 不 应 被 删 
除 ， 而 需要 保存 在 队列 中 《而 其 他 从 集群 的 日 志 都 被 处 理 完 了 ) 。 请 参 
考 本 节 的 “Tegion 服 务 器 失效 ”部 分 。 


当 源 初始 化 好 后 ， 它 便 包 括 当前 region 服务 器 要 写 入 的 HLog . 4 

日 志 深 动 时 ， 新 的 文件 在 可 用 之 前 被 添加 a 到 每 个 从 集群 的 znode 队 列 

中 。 这 样 可 以 保证 所 有 资源 都 知道 有 新 的 HLog 可 以 复制 到 自己 的 集群 
中 ， 但 这 种 操作 现在 还 是 十 分 消耗 系统 资源 的 。 当 复制 线程 从 日 志文 件 
中 读 不 到 新 的 日 志 条 目 《〈“ 因 为 它 到 达 了 文件 的 最 后 一 个 块 ) ， 并 且 队 列 
中 还 有 其 他 文件 的 路 径 时 ， 队 列 中 的 旧 路 径 就 会 被 丢弃。 这 意味 着 ， 当 
一 个 源 是 最 新 的 ， 且 region 服 务 器 正在 写 入 时 ， 读 到 当前 文件 末尾 的 文 
件 不 会 被 删除 。 


当日 志 被 归档 (由 于 日 表 、 不 再 被 使 用 ， 或 日 志 的 数目 超过 了 
hbase.regionserver. maxlogs 配置 的 值 ， 也 有 可 能 是 由 于 修改 的 写 
入 速度 比 region 刷 写 速度 快 )， 它 会 通知 源 线程 日 志 地 址 发 生 的 变化 。 
如 果 一 个 源 已 经 同步 完了 这 个 日 志 ， 便 会 忽略 这 条 信息 。 如 果 这 个 文件 
在 队列 中 ， 那 么 路 径 就 会 被 更 新 。 如 果 日 志 正 在 被 同步 ， 且 修改 是 原子 
性 的 ， 因 此 读 进程 在 文件 移动 完成 之 前 不 会 尝试 读 取 文件 。 同时， 移动 
文件 是 由 NameNode 操 作 完 成 的 ， 所 以 当日 志 正 在 被 读 取 时 ， 不 会 产生 
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ITZ FRE 0 
3. 读 取 、 过 滤 以 及 发 送 数 据 修改 


默认 情况 下 ， 一 个 源 会 尝试 读 取 日 志文 件 ， 并 尽 可 能 快 地 将 它们 传 
送 到 从 集群 的 接收 服务 器 上 。 这 件 事 首先 受到 日 志 过 滤 的 限制 ， 只 有 被 
分 为 GLOBAL 类 的 且 不 属于 目录 表 日 志 项 的 KeyValue 会 被 保留 。 第 二 个 
限制 是 每 个 从 集群 同步 总 大 小 ， 默 认为 64 MB。 这 意味 着 3 个 从 集群 会 
占用 192 MB 来 存储 要 同步 的 数据 ， 且 不 包括 被 过 滤 的 数据 。 


一 旦 达到 绥 冲 修改 信息 的 最 大 值 ， 或 该 到 了 日 志文 件 的 末尾 ， 源 线 
程 将 会 停止 读 取 并 随机 挑选 一 个 可 接收 数据 的 从 集群 服务 器 来 同步 数据 


























《从 一 个 生成 的 从 集群 服务 器 子 集 列 表 中 挑选 ) 。 它 会 直接 把 RPC 请 求 
RAPERE AE, WRR, WRF AA EAE. W 
果 读 完 ， 则 源 会 从 队列 中 删 掉 这 个 znode。 如 果 没 有 读 完 ， 则 在 日 志 的 

znode 中 注册 一 个 新 的 位 移 。 如 果 RPC 抛 出 异常 ， 源 会 在 重 试 10 次 之 后 

挑选 一 个 新 的 服务 器 。 


4. 清理 日 志 








如 果 没 有 启用 同步 复制 ，master 的 日 志清 理 线程 会 按照 配置 的 生存 
期 (Time-To-Live, TTL) 删除 旧 的 日 志 。 这 种 机 制 在 有 复制 时 表现 不 
太 好 ， 因 为 归档 日 志 超 出 TTL 后 有 可 能 还 在 队列 中 。 所 以 ， 默 认 行 为 被 
增强 了 一 些 ， 即 如 果 日 志 超过 了 TIL， 清 理 线程 会 查看 每 个 队列 直到 找 
到 日 志 (同时 缓存 其 找到 的 日 志 ) 。 如 果 在 队列 中 没有 找到 日 志 ， 则 日 
志 会 被 删除 。 下 次 还 需要 查找 日 志 时 ， 它 会 先 检查 缓存。 


5. region 服 务 器 异常 











只 要 region 服 务 器 没有 失效 ， 在 ZooKeeper 中 跟踪 日 志 就 不 会 添加 新 
值 。 不 驻 的 是 ， 服 务 器 失效 是 一 种 常见 的 情况 。 因 为 ZooKeeper 是 高 度 
可 靠 的 ， 所 以 我 们 可 以 依靠 它 和 它 的 语义 来 帮助 我 们 管理 队列 的 传输 。 


主 集群 的 region 服 务 器 都 会 为 其 他 服务 器 保留 一 个 监听 器 
(watcher) ， 以 便当 其 他 服务 器 朋 江 时 收 到 通知 (master 也 是 这 样 做 
的 ) 。 当 有 其 他 服务 器 朋 泪 时 ， 它 们 会 竞争 着 为 宕 机 服务 器 的 znode 创 
建 一 个 叫做 lock 的 znode， 且 该 znode 中 包含 其 队列 。 创 建成 功 的 服务 
器 会 把 队列 添加 到 上 自己 的 znode 中 去 〈 由 于 ZooKeeper 不 文 持 改名 操作 ， 
所 以 必须 逐个 进行 添加 ) ， 并 且 在 这 个 过 程 完成 之 后 ， 它 将 删除 旧 的 队 
列 。 它 恢复 队列 的 znode 会 用 当前 服务 器 的 D 附 加 宕 机 服务 器 的 名 称 来 
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一 旦 这 些 完成 ， 主 集群 region 服 务 顺 会 为 每 个 复制 后 的 队列 创建 一 
个 新 的 源 线程 ， 并 且 每 个 线程 都 会 按照 读 取 / 过 滤 / 传 输 的 模式 工作 。 最 
主要 的 不 同 是 ， 队 列 不 会 有 新 的 数据 ， 因 为 它们 不 属于 新 的 region 服 务 
器 ， 也 就 是 说 ， 当 读 进程 读 到 日 志 的 结尾 时 ， 队 列 的 znode 会 被 删除 ， 
并 且 主 集群 的 region 服 务 器 会 关闭 这 个 复制 源 。 


例如 ， 假 设 一 个 主 集群 有 3 个 region 服 务 器 同时 将 数据 同步 到 id 为 2 
的 从 集群 。 下 面 的 目录 结构 代表 了 znode 的 布局 。 可 以 发 现 region 服 务 器 


的 znode 都 包含 一 个 peers znode， 其 中 包括 一 个 队列 。 队 列 中 znode 的 名 
字 代 表 HDFS 中 实际 的 文件 名 ， 格 式 为 “address,port.timestamp ”. 


/hbase/replication/rs/ 
1.1.1.1,60020,123456780/ 
peers/ 
2/ 
1.1.1.1,60020.1234 (Contains a position) 
1.1.1.1,60020.1265 
1.1.1.2,60020,123456790/ 
peers/ 
2/ 
1.1.1.2,60020.1214 (Contains a position) 
1.1.1.2,60020.1248 
1.1.1.2,60020.1312 
1.1.1.3,60 
peers/ 
2/ 
1.1.1.3,60020.1280 (Contains a position) 





现在 ， 我 们 可 以 认为 1.1.1.2 的 ZooKeeper 会 话 丢 失 。 其 他 region 服 务 
器 会 通过 竞争 来 创建 锁 ， 此 时 1.1.1.3 创 建成 功 。 然 后 ， 它 将 队列 加 上 罕 
机 服务 器 的 名 字 后 ， 将 所 有 队列 都 转移 到 自己 的 对 等 znode 下 。 在 1.1.1.3 
清理 老 znode 前 ，ZooKeeper 中 的 结构 如 下 : 





/hbase/replication/rs/ 
1.1.1.1,60020,123456780/ 
peers/ 
2/ 
1.1.1.1,60020.1234 (Contains a position) 
1.1.1.1,60020.1265 
1.1.1.2,60020,123456790/ 
lock 


1.1.1.2,60020.1214 (Contains a position) 
1.1.1.2,60020.1248 
1.1.1.2,60020.1312 
1.1.1.3,60020,123456630/ 
peers/ 
2/ 


1.1.1.3,60020.1280 (Contains a position) 


2- 


1.1.1.2,60020,123456790/ 

1.1.1.2,60020.1214 (Contains a position) 
1.1.1.2,60020.1248 
1.1.1.2， 


60020.1312 





之 后 ， 在 1.1.1.3 完 成 从 1.1.1.2 复 制 最 后 一 条 HLog 前 ， 我 们 可 以 认为 
它 也 宕 机 了 (也 会 有 一 些 新 的 日 志 在 正常 队列 中 ) 。 最 后 剩 下 的 region 
ee 同时 开始 转移 队列 到 它 的 peer znode 下 。 

zma mF: 


/hbase/replication/rs/ 
1.1.1.1,60020,123456780/ 
peers/ 


.1,60020.1378 (Contains a position) 

. 3,60020, 123456630/ 

‚60020.1325 (Contains a position) 
60020.1401 

, 60020, 123456790-1.1.1.3,60020, 12345663 


1.1.1.2,60020.1312 (Contains a position) 
1.1.1.3,60020,123456630/ 
lock 
peers/ 


60020.1325 (Contains a position) 
60020.1401 

60020, 123456790/ 

60020.1312 (Contains a position) 





ma M a 使 用 前 请 仔细 考虑 它 是 否 满足 你 





O 见 维基 百科 中 的 “B+ trees” 页 面 ( 
http://en.wikipedia.org/wiki/B%2B_tree ) 。 


D ILO’ Neil 在 1996 年 发 表 的 论文 “LSM 树 ”( 
http://citeseerx.ist.psu.edu/viewdoc/summary ?doi=10.1.1.44.2782 ) 。 





© Æ A Doug Cutting 在 2005 年 12 月 5 日 发 表 的 一 篇 论文 “Open Source 
Search” ( 
http:/www.haifa.ibm.com/Workshops/ir2005/papers/DougCutting- 
Haifa05.pdf ) 。 


4) 在 特殊 情况 下 ， 用 户 可 以 通过 Put.setwriteToWAL (boolean) 方法 关 
闭 该 步骤 ， 但 并 不 推荐 禁用 持久 。 


© 见 社区 官方 问题 跟踪 记录 HADOOP-3315 的 细节 ( 
http://issues.apache.org/jira/browse/HADOOP—3315 ) 。 


© 见 维基 百科 中 “Write-ahead logging” 一 节 ¢ 
http://en.wikipedia.org/wiki/write-aheadlogging ) 。 


D 后 面 它们 分 别 被 引用 为 root 表 和 meta 表 ， 例 如 ，-ROOT- 反映 了 它 在 
HBase 中 实际 的 表 名 ， 而 称 它 为 root 表 则 强调 了 它 的 作用 。 


查看 在 线 文 档 http://dev.mysql.com/doc/refman/5.1/en/replication- 
formats.html 以 获得 更 多 细节 信息 。 





HOR ”局 级 用 法 


这 一 章 会 更 深入 地 探讨 HBase 存 储 设计 染 构 中 的 各 种 问题 。 只 有 设 
计 合适 的 表 结 构 、 行 键 、 列 名 等 才能 充 份 利用 HBase 体 系 结构 的 优势 。 


9.1 行 键 设计 


HBase 有 两 种 基本 的 键 结构 : 行 键 Crow key) 和 列 键 (column 
key) 。 两 者 都 可 以 存储 有 意义 的 信息 ， 这 些 信息 有 两 类 ， 一 种 是 键 本 
吴 存 储 的 内 容 ， 另 一 种 是 键 的 排列 顺序 。 下 面 会 利用 这 些 键 来 解决 一 些 
用 户 在 设计 存储 方案 时 常 过 到 的 问题 。 








9.1.1 概念 


首先 我 们 要 分 析 一 下 ， 与 磁盘 文件 相 比 ，HBase 中 表 的 数据 分 布 的 
各 种 细节 信息 。HBase 的 表 中 的 数据 分 割 主 要 使 用 列 族 而 不 是 列 ， 这 与 
一 般 传 统 的 列 式 存 储 数据 库 的 概念 有 所 人 不同。 图 9-1 表 明 了， 虽然 用 户 
远 辑 上 把 一 个 单元 格 的 数据 存 到 了 一 张 表 中 ， 但 实际 上 拘 层 存储 是 按 列 
族 线性 地 存储 了 单元 格 ， 同 时 单元 格 包含 了 所 有 它 必要 的 信息 。 


左上 角 的 图 片 展 示 了 数据 的 逻辑 布局 ， 用 户 设 定 了 行 和 列 。 列 包括 
了 HBase 特 有 的 列 族 和 列 限定 符 ， 从 而 组 成 列 键 。 同 时 ， 每 一 行 还 有 行 
键 ， 所 以 用 户 可 以 通过 行 键 得 到 逻辑 布局 中 一 行 的 所有 列 。 


右上 角 的 图 片 展 示 了 逻辑 布局 如 何 转换 为 实际 的 物理 存储 布局 。 每 
一 行 的 单元 格 被 有 序 存储 ， 同 时 不 同 列 族 的 数据 存储 在 不 同文 件 中 。 换 
句 话 说 ， 破 盘 上 一 个 列 族 下 所 有 的 单元 格 都 存储 在 一 个 存储 文件 
(store file) 中， 不 同 列 族 的 单元 格 不 会 出 现在 同一 个 存储 文件 中 。 


因为 HBase 不 存储 任何 在 表 中 没有 值 的 单元 格 〈 在 RDBMS 
HH, NULL 可 作为 空 值 存储 )， 磁 盘 文 件 中 也 只 有 这 些 已 经 有 值 的 单元 
格 。 同 时 每 个 单元 格 在 实际 存储 时 也 保存 了 行 键 和 列 键 ， 所 以 每 个 单元 
格 都 单独 存储 了 它 在 表 中 所 处 位 置 的 相关 信息 。 
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r1 :cf1 :c1:t1: <value> \x00 r3: cf2 : c1: t3 :<value> 
' 3: f2: c1 : t2 :<value> 
r1 :cf1 :cl <value> : t1 ;\x00 Shift 
rl- <value>: cf1 : c1 : t1: \x00 r4: 2:¢ tl :<value> 
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(5: d2: cl: th-<value> 
相同 的 存储 要 求 StoreFile “Cf1/1234” StoreFile “Cf2/1234" 








图 9-1 一 行 数据 存储 在 线性 的 单元 格 集合 内 单元 格 包 含 了 所 有 重要 的 信息 


此 外 ， 同 一 个 单元 格 的 多 个 版 本 被 单独 存储 为 连续 的 单元 格 ， 当 单 
元 格 被 存储 时 还 需要 添加 必要 的 时 间 惟 。 单 元 格 按照 时 间 愉 降序 排列 ， 
所 以 在 HFile 的 Reader 读 取 数 据 时 ， 最 新 的 值 先 被 读 到 ， 这 也 是 HBase 设 
计 模 式 中 典型 的 读 取 数据 的 方式 。 


含有 结构 信息 的 整个 单元 格 在 HBase 中 被 叫做 KeyValue 。 其 中 不 
仅 包含 用 户 生 成 时 设 定 的 列 Ccolumn) 和 对 应 的 值 ， 也 包含 行 键 和 时 
EJER. KeyValue 存储 时 先 按 行 键 排序 ， 当 一 行 有 多 个 单元 格 时 内 部 再 
按 列 键 排序 。 


右 下 角 图 片 展示 了 一 张 逻 辑 表 在 物理 存储 文件 中 的 数据 布局 。 
HBase API 包 含 多 种 访问 存储 文件 的 方法 ， 由 于 键 从 左 到 右 降序 排列 : 
用 户 可 以 按 行 键 检索 一 行 数 据 ， 这 样 可 以 有 效 地 减少 查询 特定 行 和 行 范 
的 时 间 。 设 定 列 族 可 以 有 效 地 减少 查询 的 存储 文件 ， 建 议 用 户 在 得 询 
时 指定 所 需 的 特定 列 族 。 


虽然 时 间 戳 或 者 厂 本 在 整个 键 的 最 右边 ， 但 是 它 是 很 重要 的 筛选 内 
容 。 存 储 文件 中 为 每 个 单元 格 (cell〉 都 保存 了 时 间 戳 ， 所 以 当 用 户 查 
询 一 个 两 小 时 前 修改 过 的 单元 格 时 ， 就 可 以 跳 过 只 包含 如 4 小 时 前 数据 
的 存储 文件 。 详 细 内 容 请 参见 8.4 节 。 














男 一 个 层次 的 查询 粒度 是 列 限定 人 符 Ccolumn qualifier) 。 用 户 可 以 
在 查询 数据 时 指定 特定 的 列 ， 或 定义 过 滤器 时 包含 或 排除 用 户 需 要 访问 
的 列 。 不 过 在 这 一 粒度 上 筛选 数据 时 ， 系 统 不 得 不 检查 每 个 送 到 过 滤 颖 
的 KeyValue ， 所 以 通过 限定 符 筛 选 数 据 只 会 有 小 幅度 的 性 能 提升 。 


{A (value〉 是 查询 往 选 时 最 后 一 个 第 选 条 件 ， 也 是 应 用 最 为 广泛 
的 筛选 条 件 ， 使 用 值 筛选 数 据 引 起 的 性 能 提升 与 使 用 限定 符 时 类 似 : 系 
统 需 要 检查 每 个 单元 格 来 确定 是 否 满 足 用 户 的 筛选 条 件 。 用 户 只 能 使 用 
过 滤器 在 服务 器 端 俑 选 值 。 图 9-2 展 示 了 KeyValue 不 同 字 段 的 作用 。 
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图 9-2 ”从 左 到 右 查 询 数据 的 性 能 变 差 


图 9-1 左 下 角 的 图 片 展示 了 “数据 位 移 *"。 对 于 一 个 KeyValue ， 由 于 
科 选 的 效率 从 左 人 至 右 明 显 下 降 ， 所 以 在 KeyValue 设计 时 用 户 可 以 考虑 
把 一 些 重 要 的 锯 选 信息 左 移 到 合适 的 位 置 ， 从 而 在 不 改变 数据 量 的 情况 
下 ， 有 用户 可 以 改变 数据 的 排序 并 提高 查询 性 能 。 





























9.1.2 ”高 表 与 宽 表 


到 目前 为 止 ， 用户 可 能 会 问 该 如 何在 HBase 中 存储 自己 的 数据 。 通 
常情 况 下 ，HBase 中 的 表 可 以 设计 为 高 表 (tall-narrow table) 40% 
(flat-wide table) 两 类 。 前 者 指 表 中 列 少 而 行 多 ， 后 者 则 正好 相反 。 根 
据 之 前 我 们 介绍 过 的 KeyValue 信息 的 和 瀑 选 粒度 信息 ， 用 户 应 当 尽 量 将 
需要 得 询 的 维度 或 信息 存储 在 行 键 中 ， 因 为 用 它 科 选 数据 的 效率 最 高 。 


此 外 ，HBase 只 能 按 行 分 片 ， 因 此 高 表 更 有 优势 。 设 想 用 户 将 一 个 








其 所 有 电子 邮件 都 存在 一 行 中 。 这 在 大 部 分 情况 下 都 是 合适 的 ， 但 也 有 
些 人 的 收 件 箱 中 有 大 量 的 邮件 。 大 到 一 行 数据 就 超过 了 最 大 HFile 的 限 
制 ， 此 时 这 个 HFile 无 法 拆 分 ， 同 时 也 导致 region 无 法 在 合适 的 位 置 进 
行 拆 分 。 


解决 此 问题 的 更 好 的 方法 是 把 一 个 用 户 的 每 个 电子 邮件 都 存在 单独 
的 一 行 中 ， 而 行 键 可 以 是 用 户 ID (userId) 和 消息 ID (messageld) 
的 组 合 ， 如 图 9-1 所 示 ， 用 户 会 发 现 : 在 磁盘 上 ， 不 管 消息 
ID (messageId) 在 列 限定 符 还 是 在 行 键 中 ， 每 个 单元 格 都 仍然 包含 
ns 以 下 是 宽 表 在 磁盘 上 的 数据 分 布 ， 并 包括 一 
些 示例 : 








userId> : < colfam> : < messageId> : < timestamp> : < email-message> 


: data : 5fc38314-e290-ae5da5fc375d : 1307097848 : "Hi Lars,..." 

: data : 725aae5f-d72e-f90f3f070419 : 1307099848 : "Welcome,and ..." 
: data : cc6775b3-f249-c6dd2b1a7467 : 1307101848 : "To Whom It ..." 
: data : dcbee495-6d5e-6ed48124632c : 1307103848 : "Hi,how are ..." 











以 下 是 电表 在 磁盘 上 的 数据 布局 : 


< UserId>-< messageId> : < colfam> : < qualifier> : < timestamp> : < email 
- message> 


12345-5fc38314-e296-ae5da5fc375d : data : : 1307097848 : "Hi Lars,..." 
12345-725aae5f-d72e-f96f3f676419 : data : : 1307099848 : "Welcome,and ..." 


12345-cc6775b3-f249-c6dd2b1a7467 : data : : 1307101848 : "To Whom It ..." 
12345-dcbee495 -6d5e-6ed48124632c : data : : 1307103848 : "Hi,how are ..." 





以 上 布局 使 用 了 空 限定 符 (参见 5.1.3 节 ) 。 消 息 ID 被 移动 到 左 
边 ， 查 询 数 据 时 它 的 第 选 作 用 也 更 显著 ， 这 样 每 个 电子 邮件 占用 一 行 。 
a a IY FA Pe a ER CLA 
HME) 。 


9.1.3 Tho) Heya ta 


HBase 的 扫描 功能 和 基于 HTable 的 API 更 适合 在 高 表 上 第 选 数据 ， 
人 


在 上 面 的 例子 中 ， 用 户 每 一 封 邮件 都 是 单独 的 一 行 。 而 之 前 的 例子 
是 把 一 个 用 户 所 有 的 邮件 都 放 在 了 一 行 数据 中 ， 这 样 一 个 用 户 的 收 件 箱 
就 是 一 行 数据 ， 同 时 取 一 行 数据 时 瓯 能 得 到 所 有 邮件 的 内 容 。 每 一 列 都 
征用 户 收 件 箱 中 的 电子 邮件 消息 。 取 数据 时 需要 使 用 行 健 来 匹配 用 户 的 
ID。 








使 用 高 表 的 例子 中 ， 消 息 ID 在 行 键 中 作为 用 户 ID 的 后 级 。 如 果 用 户 
没有 这 两 个 ID 确切 的 值 ， 用 户 就 无 法 得 到 一 个 特定 的 电子 邮件 。 为 避免 
出 现 这 个 问题 ， 用 户 可 以 使 用 包含 部 分 键 的 扫描 : 用 户 可 以 将 扫描 操作 
ee ee ane 当然 结束 键 要 设置 
为 userId + 1. 


扫描 的 范围 包括 起 始 键 ， 但 不 包括 终止 键 。 将 起 始 键 设 为 用 户 ID 之 
后 ，HBase 内 部 会 按 字 典 序 找到 第 一 个 行 键 的 位 置 〈 这 个 行 键 要 么 是 起 
始 键 ， 要 么 是 刚好 大 于 起 始 键 的 第 一 个 行 键 ) 。 由 于 表 中 没有 等 于 起 始 
键 的 行 键 ， 它 会 定位 扫描 下 行 。 


< userId>-< Lowest-messageId> 


EME, Toei ab AIDA ADAS. Iba aie 
FITS ALP R TENS A Ay DA AT EP SE LID 
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字典 序 从 左 到 右 排 序 ) ， 当 一 个 字段 被 加 到 键 中 时 就 多 了 一 个 可 以 检 
索 的 维度 : 


< userId>-< date>-< messageId>-< attachmentId> 


























E9 
一 人 用户 需要 保证 行 键 中 每 个 字段 的 值 都 被 补 齐 到 这 个 
字段 所 设 的 长 度 ， 这 样 字典 序 才 会 按 预 期 排列 〈 按 二 进 制 内 
容 比较 ， 并 升序 排列 ) 。 用 户 需 要 为 每 个 字段 设 定 一 个 固定 
的 长 度 来 保证 每 个 字段 比较 时 只 会 与 同 字段 内 容 从 左 向 右 比 
较 ， 否 则 可 能 出 现 溢出 的 情况 。 2 








用 户 可 以 根据 查询 精度 的 要 求 ， 构 造 特定 的 起 始 键 和 终止 键 来 查询 
所 需 的 数据 。 通 常情 况 下 ， 用 户 只 需 创 建 起 始 键 ， 同 时 将 终止 键 设置 成 
相同 的 键 ， 并 在 第 一 个 字段 最 后 的 字 节 上 附加 一 点 数据 。 束 以 上 例子 而 
言 ， 用 户 可 以 把 起 始 键 设 为 12345〈 可 以 假设 这 是 一 个 用 户 的 ID) , & 
止 键 设 为 123456。 


表 9-1 展 示 了 可 能 的 起 始 键 及 其 含 》 








表 9-1 可 能 的 起 始 键 及 其 含义 
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<userId>-<date>-<messageId> 给 定 用 户 ID 和 日 期 下 的 全 部 消息 
<userId>-<date>-<messageId>- 给 定 用 户 ID 和 日 期 下 的 一 个 消息 
<attachmentId> 


这 种 组 合 行 键 与 关系 型 数据 库 系 统 提供 的 功能 相似 ， 用 户 可 以 控制 
每 个 字段 的 内 容 以 达到 控制 段 内 排序 的 目的 。 例 如 ， 用 户 可 以 把 long 


























值 类 型 的 数据 (如 Linux 时 间 〉 转 化 为 位 形式 ， 这 样 可 以 让 数据 按 日 期 
降序 排列 。 此 外 还 有 一 种 转换 方式 : 


Long.MAX_VALUE - < date-as-long> 


这 样 可 以 反 转 日 期 的 排序 ， 并 保证 时 间 字 段 值 是 降序 排列 的 。 

在 以 上 例子 中 ， 用 户 可 以 把 日 期 字段 放 在 行 键 后 。 这 只 是 一 种 组 合 
方式 ， 如 采用 户 不 需要 按 日 期 排序 来 得 询 数据 ， 则 可 以 将 这 个 字段 设 为 
其 他 合适 的 内 容 。 


Fa 
oy 
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一 人 之 前 我 们 采用 的 组 合 键 看 上 去 是 一 种 通用 的 优秀 方 
法 ， 但 其 原子 性 是 一 个 很 突出 的 问题 。 由 于 一 个 收 件 箱 中 的 
数据 现在 分 布 在 多 行 中 ， 所 以 不 可 能 在 一 个 简单 操作 中 修改 
一 个 收 件 箱 的 全 局 属性 。 如 果 用 户 不 需要 一 次 修改 整个 收 件 
箱 中 所 有 邮件 的 消息 ， 之 前 我 们 提 到 的 高 表 设 计 就 非常 适 
合 。 但 如 果 用 户 有 这 种 修改 需求 ， 宽 表 可 能 更 为 适合 ， 因 为 
HBase 能 保证 数据 操作 的 行 级 原子 性 。 











9.1.4 ”分 页 


使 用 以 上 方法 ， 用 户 可 以 很 方便 地 裔 历 查 询 数据 子 集 的 行 。 原 理 与 
之 前 介绍 的 类 似 ， 用 户 可 以 设 定 起 始 键 和 终止 键 来 限制 要 扫描 的 范围 。 
同时 用 户 可 以 在 客户 端 添加 offset 和 1imit 参数 来 筛选 数据 。 
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S 用 户 可 以 使 用 4.1.3 节 中 “分 页 过 滤器 
(PageFilter) ”或 “ 列 分 页 过 滤器 
CColumnPaginationFilter) ” 提 到 的 功能 来 实现 分 页 。 
本 市 提 到 的 方法 重点 曾 述 如 何 使 用 键 设计 来 达到 分 页 的 效 
果 。 


但 如 果 纯 粹 只 是 简单 分 页 ， 因 为 列 分 页 过 滤器 可 以 避免 
传输 多 余数 据 ， 所 以 其 仍 是 被 推荐 使 用 的 方式 。 


具体 步骤 如 下 。 
.在 起 始 键 的 位 置 处 打开 一 个 扫描 器 。 
. 跳 过 offset 数目 的 行 。 

3. 读 取 limit 数目 的 行 ， 并 返回 给 上 层 应 用 。 

4. 关闭 扫描 器 。 

在 收 件 箱 应 用 中 ， 可 以 对 一 个 用 户 的 所 有 邮件 进行 分 页 。 假 设 通常 
情况 下 一 个 用 户 的 收 件 箱 中 有 几 百 封 邮件 ， 一 般 他 只 会 查阅 前 面 几 封 ， 
如 前 50 封 ， 那么 余下 的 邮件 需要 通过 单 击 Next 按 钮 加 载 下 一 页 。 

客户 端 可 以 把 起 始 行 设 为 用 户 ID， 同 时 将 结束 行 设 为 用 户 ID+1。 然 
后 使 用 上 面 提 到 的 方法 ， 当 offset 为 0 时 ， 用 户 可 以 读 取 50 封 邮件 。 当 
用 户 单 击 Next 按 钮 时 ，offset 设 为 50 并 跳 过 前 50 行 ， 并 返回 第 51 一 100 
tT 


当 行 数 很 少时 ， 这 种 方法 可 行 。 但 是 ， 当 需要 对 几 干 行 数据 进行 分 
页 时 ， 就 需要 采用 其 他 方法 了 。 用 户 可 以 添加 一 个 序列 ID 到 行 键 中 来 帮 
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ees ale a u 
。 如 果 用 户 使 用 Unix 时 间 ， 则 可 以 计算 上 一 次 扫 拉 午夜 的 最 后 一 
。 这 样 用 户 可 以 重新 扫描 前 一 天 的 数据 来 诀 定 具体 癌 用 户 返 站 二 于 











te 
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页 ， 例 如 ， 我 们 在 前 面 收 件 箱 应 用 的 例子 。 使 用 之 前 由 用 户 ID 和 日 期 组 
合 的 行 键 ， 可 以 让 邮件 按时 间 逆 序 排 列 ， 从 而 使 最 新 的 邮件 最 先 被 读 取 
到 。 但 是 如 果 用 户 要 完全 按照 其 他 字段 排序 ， 并 在 不 同 的 排序 方式 中 转 
换 查 询 方 式 ， 则 用 户 可 以 采用 9.3 市 中 介绍 的 方法 。 


9.1.5 ”时 间 序 列 


当 处 理 流 式 事件 时 ， 最 常见 的 数据 就 是 按时 间 序 列 组 织 的 数据 。 这 
些 数 据 可 能 来 自 电 网 的 一 个 传感器 、 一 个 股票 交易 软件 或 一 个 信息 化 的 
监控 系统 。 这 些 数据 的 突出 特点 是 它们 的 行 键 都 代表 了 事件 发 生 的 时 
间 。 由 于 HBase 的 数据 组 织 方式 ， 这 样 的 数据 在 存储 时 会 出 现 一 个 问 
题 : 这 些 数 据 会 补 有 序 存 储 到 一 个 特定 的 范围 内 ， 也 就 是 一 个 有 特定 起 
始 键 和 停止 键 的 region 中 。 


由 于 一 个 region 只 能 由 一 个 服务 器 管理 ， 所 以 所 有 的 更 新 都 会 集中 
在 一 侣 服务 器 上 。 这 会 导致 系统 产生 读 写 热点 ， 并 由 于 写 入 数据 过 分 集 
中 而 导致 整个 系统 性 能 下 降 。 


要 解决 这 个 问题 ， 用 户 需 要 想 办 法 将 数据 分 eh a 
器 上 去 。 有 很 多 方法 可 以 达到 这 个 目的 ， 例 如 ， 在 行 键 前 添加 一 个 不 连 
续 的 前 级 。 通 常情 况 下 有 如 下 选择 。 
salting 方 式 


用 户 可 以 使 用 salting 前 级 来 保证 数据 分 散 到 所 有 region JRA ae > fil 
H: 

















byte prefix =(byte)(Long.hashCode(timestamp)% < number of region 

servers>); 

byte[] row key = Bytes .add(Bytes.toBytes(prefix),Bytes.toBytes(timesta 
mp); 


[L E 

这 个 公式 将 产生 足够 的 前 级 数 以 确保 将 数据 分 散 到 所 有 region 服务 
器 中 去 。 当 然 ， 这 个 公式 假定 服务 器 数目 固定 ， 如 果 用 户 的 集群 规模 可 
能 扩大 就 应 当 将 前 绥 数 翻 倍 。 生 成 的 行 键 可 能 如 下 : 


Omyrowkey-1, Imyrowkey-2, 2myrowkey-3,  O@myrowkey-4, Imyrowkey-5, \ 


2myrowkey-6,... 





当 键 被 排序 之 后 并 发 送 到 对 应 的 region 时 ， 它 们 的 顺序 如 下 : 


emyrowkey-1 
Omyrowkey-4 
lmyrowkey-2 
lmyrowkey-5 





换 句 话说 ，6myrowkey-1 和 6myrowkey-4 这 两 条 更 新 操作 会 被 送 
到 同一 个 region〔 假 设 以 0 开头 的 数据 还 没有 跨 多 个 region， 不 然 数据 会 
更 分 散 ) ， 同 时 1myrowkey-2 和 1myrowkey-5 会 被 送 到 另 一 个 region。 








这 样 做 的 缺点 是 当 用 户 要 扫描 一 个 连续 的 范围 时 ， 可 能 需要 对 每 个 
region 服务 器 都 发 起 请 求 〈 因 为 之 前 连续 的 数据 ， 现 在 已 经 分 散 到 不 同 
的 服务 器 中 ) 。 这 样 也 会 带 来 好 处 ， 用 户 可 以 多 线程 并 行 地 读 取 数据 。 
这 有 些 类 似 于 一 个 小 规模 的 MapReduce 作 业 ， 这 样 查询 的 吞吐 量 会 有 所 


提高 。 





使 用 场景 : Mozilla Socorro 


Mozilla 为 Firefox 和 Thunderbird 建 立 了 一 个 名 为 Socorro 
O 的 般 溃 报告 系统 ， 这 个 系统 用 来 存储 用 户 报告 的 程序 异 


常 及 相关 信息 。 这 些 报告 随后 会 密 Mozilla 开 发 小 组 用 来 优 
化 他 们 的 软件 ， 从 而 让 他 们 的 软件 产品 可 以 在 不 同 的 平台 
和 配置 下 运行 得 更 为 稳定 


这 个 项 目 是 开源 的 ， 代 码 可 以 在 网 上 下 载 ， 它 使 用 
Python 客户 端 通过 Thrift 与 HBase 集 群 进行 通信 。 下 面 的 例 
子 展示 了 《在 写 这 本 书 时 ) 客户 喘 如 何在 扫描 时 处 理 包 装 
WZ Ja ANB. 














def merge_scan_with_prefix(self, table, prefix, columns): 


A generator based iterator that yields totally ordered rows starting wit 


ha 
given prefix. The implementation opens up 16 scanners(one for each leadi 


ng 
hex character of the salt)simultaneously and then yields the next row in 
order from the pool on each iteration. 


iterators = [] 
next items queue = [] 
for salt in '@123456789abcdef': 
salted prefix = "%s%s" %(salt, prefix) 
scanner = self.client.scannerOpenWithPrefix(table,salted_prefix, column 


s) 
iterators.append(salted_scanner_iterable(self.logger,self.client, 
self. _make_row_nice,salted_prefix,scanner) ) 


# The i below is so we can advance whichever scanner delivers us the pol 
led 
# item. 
for i,it in enumerate(iterators): 
try: 
next = it.next 
next_items_queue.append([next(),i,next]) 
except StopIteration: 
pass 
heapq.heapify(next_items_ queue) 


while 1: 
try: 


while 1: 
row_tuple,iter_index,next = s = next_items_queue[@] 
#tuple[1] is the actual nice row. 
yield row_tuple[1] 
s[@] = next() 
heapg.heapreplace(next_items_queue,s) 
except StopIteration: 
heapg.heappop(next_items_ queue) 
except IndexError: 
return 





fe Python {Qh 4218 fis ok Ble BE Stas, “ESA 
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个 。 注 意 这 里 使 用 heapq 类 来 合并 实际 的 数据 和 结果 集 的 
全 局 排序 。 





字段 交换 /提升 权重 


使 用 9.1.3 节 介绍 的 方法 ， 用 户 可 以 将 时 间 惟 字段 移 开 或 添加 其 他 字 
段 作为 前 级 。 这 样 做 其 实 是 想 利 用 组 合 行 键 的 思想 来 让 连续 递增 的 时 间 
截 在 行 键 中 的 位 置 从 第 一 位 变 到 第 二 位 。 


如 琳 用 户 设 计 的 行 键 已 经 包含 多 个 字段 了 ， 则 可 以 调整 它们 的 位 
置 。 如 果 行 键 只 包含 了 时 间 戳 ， 则 用 户 应 当 将 其 他 字段 从 列 键 或 值 中 提 
取出 来 ， 然 后 放 到 行 键 的 前 端 。 


将 时 间 戳 从 组 合 键 的 左边 回 右 移动 也 有 人 缺点: 用户 能 访问 数据 ， 尤 
其 是 时 间 范 围 内 的 数据 ， 并 使 用 一 个 给 定 的 字段 。 


使 用 场景 : OpenTSDB 


OpenTSDB ® 项 目 提供 了 一 个 时 间 序 列 数据 库 ， 该 数 
据 库 用 来 存储 由 外 部 代理 程序 收集 的 服务 占 和 服务 的 各 项 
监控 指标 (metric) 。 所 有 数据 都 存储 在 HBase 中 ， 用 户 可 
以 使 用 UI 来 查询 各 项 指标 ， 并 进行 实时 组 合 抽样 。 


表 模 式 (schema) 就 把 监控 指标 ID 放 在 了 行 键 中 ， 并 
形成 了 以 下 结构 : 


< metric-id>< base-timestamp>... 


由 于 生产 系统 有 很 多 种 监控 指标 ， 它 们 的 ID 取 值 的 字 
段 很 分 散 ， 所 以 所 有 的 更 新 操作 也 吏 被 分 散 开 了 ， 用 户 最 
后 得 到 了 与 salt 前 绥 类 似 的 效果 : 读 写 操作 都 分 散 到 了 各 个 
不 同 的 监控 指标 ID 下 。 





这 种 方式 很 适合 主要 按 行 键 前 面部 分 查询 的 系统 。 如 
上 例 OpenTSDB 中 的 行 键 结构 ， 可 以 很 方便 地 为 用 户 在 UI 
中 提供 按时 间 顺序 显示 一 个 或 多 个 用 户 选择 的 监控 指标 的 
最 近 结 果 。 


随机 化 
为 一 种 完全 不 同 的 方式 是 将 行 键 随机 化 ， 例 如 : 


byte[] row key = MD5(timestamp) 


采用 MD5 之 类 的 散 列 函数 能 将 行 键 分 散 到 所 有 的 region 服 务 器 上。 
对 于 时 间 连 续 的 数据 ， 这 种 方法 明显 不 是 个 好 方法 。 因 为 随机 化 之 后 ， 
用 户 将 不 能 再 按时 间 范 围 扫描 数据 。 


劝 一 方面 ， 由 于 用 户 可 以 用 散 列 的 方式 重新 生成 行 键 ， 随 机 化 的 方 
式 很 适合 每 次 只 读 取 一 行 数据 的 应 用 。 如 采用 户 的 数据 不 需要 连续 扫描 
而 只 需 随 机 读 取 ， 用 户 就 可 以 使 用 这 种 集 略 。 


简单 总 结 以 上 方法 后 ， 用 户 会 发 现在 优化 读 写 性 能 的 同时 找到 正确 
的 平衡 点 并 不 是 一 件 简单 的 事情 。 它 关系 到 用 户 的 数据 访问 模式 ， 该 模 
式 最 终 决 定 了 用 户 如 何 设计 行 键 的 结构 。 图 9-3 展 示 了 不 同 解决 方案 
读 写 性 能 的 影响 。 








顺 友 键 {i HY salt fry ae 提升 字段 链 











图 9-3 ”寻找 顺序 读 写 性 能 的 平衡 点 


使 用 salt 前 缀 或 将 茶 些 不 是 连续 取 值 的 主键 字段 提前 ， 可 以 使 分 散 


写 压 力 并 提高 写 入 性 能 ， 同 时 扫描 连续 的 键 子 集 也 可 以 提高 读 性 能 。 但 
是 ， 如 果 用 户 只 需要 随机 读 取 数据 ， 那 么 随机 行 键 束 更 有 用 ， 因 为 它 能 
完全 避免 某 个 region 成 为 读 写 热点 。 
9.1.6 ”时 间 顺 序 关 系 

以 上 数据 都 会 按照 产生 的 时 间 顺 序 以 独立 行 插 入 到 HBase 中 ， 但 是 
也 可 以 使 用 另 一 种 方式 ， 即 将 新 的 事件 以 发 生 时 间 为 列 进行 插入 。 因 为 
列 在 HBase 中 是 按 列 族 组 织 的 ， 所 以 每 个 列 族 下 的 列 可 以 作为 一 个 辅助 
索引 单独 进行 排序 ， 如 同 RDBMS。 虽 然 这 不 是 推荐 的 设计 模式 ， 但 少 
量 的 索引 可 能 正 是 用 户 所 需要 的 。 

以 之 前 的 收 件 箱 应 用 为 例 ， 它 将 用 户 的 所 有 邮件 存在 一 行 中 。 由 于 


用 户 需 要 按照 收 件 顺序 显示 邮件 ， 同 时 也 有 可 能 需要 按照 题目 等 顺序 进 
行 排序 。 设 计时 可 以 利用 基于 列 的 排序 来 显示 收 件 箱 的 不 同 视图 。 


Bh 
一 人 记 住 ， 不 要 为 一 张 表 设置 过 多 的 列 族 ， 特 别 是 当 数 
据 量 大 的 列 族 和 数据 量 小 的 列 族 混 用 (大 小 指 的 是 存储 的 数 
据 量 ) ， 用 户 可 以 把 收 件 箱 的 邮件 存储 在 一 张 表 中 ， 同 时 把 
辅助 索引 存在 另 一 张 表 中 。 缺 点 是 这 样 用 户 不 能 保证 修改 两 
张 表 的 原子 性 (HBase 只 保证 行 级 原子 性 ) 。 同 时 请 参 9.3 节 
来 克服 这 个 限制 。 


























用 户 首 先 要 决定 存储 数据 的 主要 顺序 是 什么 ， 也 就 是 说 ， 用 户 大 多 
数 情况 下 会 按 什 么 顺序 检索 收 件 箱 数 据 。 假 设 按照 收 件 顺序 则 可 以 按 之 
前 提 到 过 的 时 间 降 序 排列 ， 这 样 用 户 就 需要 将 邮件 的 时 间 戳 反 序 排列 来 
达到 按时 间 逆 序 排列 的 目的 。 


Long.MAX_VALUE - < date-as-long> 


pO 
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用 户 可 以 把 邮件 题目 提取 出 来 并 添加 到 列 键 的 前 面 来 建立 辅助 索引 。 如 
果 用 户 需 要 对 题目 进行 降序 排列 ， 则 需要 再 额外 添加 一 个 列 族 。 


为 了 避免 太 多 的 列 族 ， 用 户 可 以 把 所 有 辅助 索引 存储 在 一 个 单独 的 
列 族 下 ， 同 时 列 键 ( 列 名 ) aaa ia a, 
HEF, Bilt, idx-subject-desc 和 idx-to-asc 等 。 接 下 来 用 户 要 
入 实际 的 排序 值 。 单 元 格 的 值 是 主 索引 的 键 ， a 
的 信息 。 用 户 需 要 从 以 下 3 种 存储 方式 中 选择 一 种 : MER CERI) 
中 读 取 消息 的 内 容 ， 只 展示 辅助 索引 中 存储 的 信息 ， 或 把 消 妃 中 的 信息 
元 余地 存储 到 辅助 家 中 从 而 避免 在 主 信 息 源 中 进行 随机 读 取 。 反 范式 
T aa Sys IL, “EAA Fda sc Ta), MAKA Re Ta FS 
AY TR FE o 


将 以 上 的 表 设 计 模 式 付 诸 实施 可 以 得 到 如 下 表 : 























: 5fc38314-e296-ae5da5fc375d : 1307097848 : "Hi Lars,..." 

: 725aae5f-d72e-f90F3F070419 : 1307099848 : "Welcome,and ..." 

: cc6775b3-£249-c6dd2b1a7467 : 1307101848 : "To Whom It ..." 

: dcbee495 -6d5e-6ed48124632c : 1307103848 : "Hi,how are ..." 
: idx-from-asc-mary@foobar.com : 1307099848 : 725aae5f- d72e 
: idx-from-asc-paul@foobar.com : 1307103848 : dcbee495- 6d5e 
: idx-from-asc-pete@foobar.com : 1307097848 : 5fc38314- e290 


: idx-from-asc-sales@ignore.me : 1307101848 : cc6775b3- £249 


12345 : index : idx-subject-desc-\xa8\x90\x8d\x93\x9b\xde : 
1307103848 : dcbee495-6d5e-6ed48124632c 

12345 : index : idx-subject-desc-\xb7\x9a\x93\x93\x90\xd3 : 
1307099848 : 725aae5f-d72e-f90F3F070419 





在 前 面 这 段 代 码 中 ， 一 个 索引 (idx-from-asc ) 按照 电子 邮件 地 
址 升序 排列 ， 另 一 个 索引 Cidxsubject-desc ) 按照 题目 降序 排列 。 
同时 题目 按照 位 反 序 (bit-inversed) 排列 以 达到 降序 排列 的 目的 ， 所 以 
其 内 容 已 经 不 可 读 了 。 例 如 : 


% String s = "Hello,"; 
% for(int i = ð0;i < s.length();i++){ 
print (Integer.toString(s.charAt(i)* @xFF,16)); 


} 
b7 9a 93 93 90 d3 





所 有 的 索引 值 都 存储 在 index FURR, JRE ZAI. AP vig 
可 以 读 取 整个 列 族 中 并 缓存 其 内 容 ， 从 而 可 以 快速 转换 邮件 排序 。 在 数 
据 量 巨大 的 情况 下 ， 用 户 可 以 读 出 索引 〈idx-subJject-desc ) 的 前 10 
列 来 展示 按 标题 排序 的 前 10 封 邮件 。 使 用 行内 扫描 (参见 3.5.3 节 〉 可 以 
实现 辅助 索引 分 页 功能 。 另 一 个 选择 是 使 用 列 分 页 过 滤器 
(ColumnPaginationFilter ) ， 并 与 列 前 级 过 滤器 
(ColumnPrefixFilter ) 组 合 来 按 页 遍历 索引 。 





9.2 ”高 级 模式 


到 目前 为 止 ， 我 们 已 经 讨论 了 怎样 利用 所 提供 的 表 模 式 把 数据 映射 
到 HBase 文 持 的 面向 列 的 存储 结构 中 。 用 户 需 要 设计 行 键 和 列 键 ， 以 优 
化 应 用 的 数据 访问 性 能 。 


每 列 的 值 都 是 可 以 存储 为 任意 字 节 数组 的 实际 数据 存储 结 点 。 这 种 
可 以 随意 添加 列 的 存储 模式 让 用 户 设 计 修 改 客户 端 程序 时 拥有 更 多 自由 
发 挥 的 余地 ， 当 然 也 有 些 使 用 场景 需要 更 正式 、 有 更 多 功能 且 可 以 更 新 
的 序列 化 API， 此 时 每 列 的 值 都 可 以 表示 更 复杂 的 、 髓 套 的 结构 。 


可 能 的 解决 办 法 包括 已 经 讨论 过 的 序列 化 包 一 一 详情 请 查看 6.1 
市 ， 以 下 古 一 些 例子 。 











Avro 


HAvroBase © 是 一 个 使 用 Avro 在 每 列 中 存储 复杂 记录 的 典型 项 目 。 
它 使 用 Avro 的 接口 定义 语言 (缩写 为 IDL) 来 定义 实际 的 模式 ， 这 个 模 
式 被 用 于 在 表 的 任意 列 中 存储 按 Avro 形式 序列 化 的 记录 。 

















Protocol Buffer 


与 Avro 类 似 ， 用 户 可 以 用 Protocol Buffer 的 IDL 来 定义 一 个 外 部 模 
式 ， 这 个 模式 被 用 来 序列 化 复杂 的 数据 结构 到 HBase 的 列 中 。 


这 种 方法 本 质 上 是 为 用 户 提供 一 种 可 以 定义 初始 模式 的 语言 ， 然 后 
用 户 可 以 通过 增加 或 者 删除 字段 来 更 新 这 个 模式 。 序 列 化 API 能 够 使 用 
新 模式 来 读 取 旧 模式 ,缺失 的 字段 被 把 略 或 者 用 默认 值 来 填 元 。 





9.3 ”辅助 索引 


尽管 HBase 没 有 为 辅助 索引 提供 原生 文 持 ， 但 是 有 些 应 用 场景 仍 需 
要 使 用 辅助 索引 。 通 各 的 需求 是 用 户 能 够 通过 主 坐 标 《〈 行 键 、 列 族 和 列 
限定 符 ) 来 查找 一 个 单元 格 ， 也 可 以 通过 一 个 其 他 类 型 的 坐标 来 进行 查 
找 。 此 外 ， 用 户 可 以 按照 辅助 索引 的 顺序 从 主 表 扫 摘 数据 。 


与 关系 型 数据 库 系统 中 的 索引 类 似 ， 辅 助 案 引 存储 了 一 个 新 坐标 和 
现 有 的 坐标 之 间 的 映射 和 关系。 以 下 列 出 了 一 些 可 行 的 解决 方案 。 


由 客户 端 管理 索引 


把 责任 完全 转移 到 应 用 层 的 典型 做 法 是 把 一 个 数据 表 和 一 个 (或 者 
BS) 碍 找 /映射 表 结 合 起 来 。 每 当 程 序 写 数据 表 时 ， 它 也 同时 更 新 映 
嘲 表 (也 被 称 为 辅助 索引 表 )〉 。 该 数据 时 可 以 直接 在 主 表 中 进行 得 询 ， 
从 辅助 索引 表 中 先 碍 找 原 表 行 键 ， 再 在 原 表 中 读 取 实际 数据 。 


这 种 做 法 既 有 优 点 也 有 缺点 。 首 先 ， 优 点 是 整个 馆 辑 都 由 客户 器 代 
码 处 理 ， 用 户 可 以 按照 需求 设计 映射 关系 。 不 过 这 样 做 的 缺点 更 多 ， 由 
于 HBase 中 不 能 保证 跨行 操作 的 原子 性 ， 例 如 ， 以 事务 的 角度 来 看 ， 用 
户 不 能 保证 主 表 和 依赖 表 的 一 臻 性。 用 户 可 以 使 用 定期 修 瘟 工作 来 部 分 
解决 这 个 问题 ， 例 如 ， 使 用 MapReduce 程 序 来 扫描 表 ， 删 除 过 时 的 条 
目 ， 或 增加 缺失 的 条 目 。 


缺少 事务 的 文 持 可 能 导致 数据 被 存储 在 数据 表 中 ， 但 是 在 辅助 索引 
表 中 没有 相应 的 映射 。 这 种 情况 可 能 发 生 在 主 表 补 更 新 后 且 索 引 表 被 成 
功 写 入 前 ， 如 果 这 段 时 间 出 现 了 任何 导致 操作 失败 的 问题 都 会 使 辅助 索 
引 和 主 表 不 一 致 。 这 个 问题 可 以 通过 移 写 辅助 索引 表 ， 在 操作 的 最 后 再 
写 数据 表 来 缓解 。 如 果 在 这 个 过 程 中 有 任何 操作 失败 ， 就 会 出 现 孤 立 的 
上 映射， 不 过 它们 很 容易 被 异步 的 定期 修 勇 工作 删除 兵 。 


用 户 可 以 自由 设计 主 索 引 和 辅助 索引 之 间 的 映 财 关系 时 ， 必 须 接受 


的 缺点 是 用 户 需 要 实现 所 有 存储 和 查找 数据 必需 的 方法 。 这 种 情况 下 ， 
需要 定义 额外 的 规则 来 让 应 用 访问 正确 的 表 ， 例 如 : 


myrowkey-1 
@myrowkey -2 



































| 


第 一 个 键 表示 和 直接 在 数据 表 中 查找 ,但 是 第 二 个 使 用 了 “@” 前 级 的 
键 则 表示 需要 通过 一 个 辅助 索引 表 来 完成 一 次 映射 。 表 的 名 字 也 可 能 需 
要 通过 数字 编码 或 添加 前 级 来 区 分 ， 为 一 种 做 法 是 ， 在 应 用 程序 中 便 编 
码 ， 并 随 模式 改变 而 变更 需求 。 


市 索引 的 事务 型 HBase 


开源 的 带 索 引 的 事务 型 HBase (Indexed-Transactional HBase， 简 称 
为 ITHBase) 项 目 © 提供 了 一 个 不 同 的 解决 方案 。 它 扩展 了 HBase， 并 
增加 了 特殊 的 客户 端 和 服务 器 端 类 的 实现 。 

最 核心 的 扩展 是 增加 了 用 来 保证 所 有 的 辅助 索引 更 新 操作 一 致 性 的 
事务 功能 。 在 此 基础 之 上 上， 提供 了 一 个 可 以 客户 端 
类 IndexedTableDescriptor ， 这 个 类 定义 了 一 个 数据 表 的 辅助 索引 
文 持 。 




















大 多 数 客 户 端 和 服务 器 问 的 类 都 被 添加 了 索引 文 持 功 能 的 类 蔡 换 掉 
了 。 例 如 ， 在 客户 端 上 ，HTable 被 IndexedTable 蔡 换 掉 。 它 有 一 个 
新 方法 叫做 getIndexedScanner() ， 该 方法 能 让 用 户 按 辅助 索引 的 顺 
序 在 表 中 取得 数据 。 


以 上 所 述 的 客户 端 管理 索引 在 单独 的 表 中 存储 主键 和 辅助 键 之 间 
的 映射 关系 ， 与 之 不 同 的 是 ， 这 些 操作 在 ITHBase 中 被 自动 处 理 ， 同 时 
主 表 与 辅助 索引 表 之 间 的 关系 由 相应 的 描述 符 〈descriptor) 定义 。 结 
合 事务 文 持 的 针 引 更 新 ， 这 个 方案 提供 了 一 个 HBase 辅 助 索引 的 完全 实 
现 。 








它 的 缺点 是 可 能 不 支持 最 新 可 用 的 HBase 版 本 ， 因 为 它 不 与 HBase 
绑 定 发 行 。 同 时 它 也 增加 了 同步 的 开销 ， 这 将 导致 性 能 的 下 降 ， 所 以 需 
要 相应 的 基准 测试 验证 其 可 用 性 。 
带 索 引 的 HBase 


在 HBase 中 增加 辅助 索 引 的 另外 一 种 解决 方案 是 市 索引 的 





HBase 〈 简 称 为 IHBase) © 。 这 种 解决 方案 放弃 了 为 每 个 索引 使 用 单独 
的 表 ， 而 是 完全 在 内 存 中 维护 索引 。 当 一 个 region 第 一 次 打开 ， 或 者 一 
个 memstore 被 刷 写 到 磁盘 上 时 ， 用 户 可 以 通过 扫 拉 整个 region 来 建立 索 
io 配置 的 region 大 小 的 不 同 ， 这 个 操作 可 能 花费 大 量 的 时 间 
HIMO 资 源 。 


当 磁盘 上 的 数据 有 索引 时 ， 内 存 中 数据 搜索 的 方式 如 下 : 它 直 接 使 
用 内 存 中 的 数据 来 搜索 索引 相关 的 详细 数据 。 这 个 方案 的 优点 是 索引 永 
远 都 是 同步 的 ， 并 且 不 需要 额外 的 事务 控制 。 


与 基于 表 的 索引 相 比 ， 使 用 这 种 方法 有 两 方面 不 同 。 一 方面 它 很 
快 ， 所 有 需要 的 索引 数据 都 在 内 存 中 ， 因 此 可 以 执行 很 快 的 二 分 查找 来 
定位 行 。 另 外 一 方面 ， 它 也 需要 大 量 额外 的 堆 空 间 来 维护 索引 。 由 于 用 
PRE 引 的 数据 量 不 同 ，IHBase 有 时 并 不 能 建 并 用户 需要 的 
索引 。 


内 存 中 的 索引 包含 类 型 文 持 ， 并 提供 了 更 细 粒 度 的 排序 和 更 高 效 的 
内 存 存 储 。 支 持 的 类 型 包括 BYTE 、CHAR 、SHORT 、INT 、LONG 
、FLOAT 、DOUBLE 、BIG_DECIMAL 、BYTE_ARRAY 和 CHAR_ARRAY 。 
如 果 需 要 按 降序 排列 ， 用 户 需 要 像 前 文 所 述 的 把 
安 位 。 


索引 的 定义 由 IdxIndexDescriptor 类 完成 ， 它 定义 了 数据 表 的 哪 
些 列 添加 了 索引 以 及 索引 的 数据 类 型 ， 该 类 型 来 自 于 上 面 的 列表 。 


用 户 可 以 通过 Idxscan 类 来 按 索 引 访问 数据 ， 它 通过 定 
义 Expression 来 扩展 正常 的 Scan 类 。 没 有 明确 表达 式 的 扫描 默认 是 正 
常 的 扫描 行为 。 表 达 式 提供 了 用 And Mor 来 构造 基本 的 布尔 逻辑 构 
造 。 例 如 : 
































Expression expression = Expression 
.or( 
Expression.comparison(column family1,qualifer1,operator1,value1) 
) 
.or( 
Expression.and() 
.and(Expression.comparison(column Family2,qualifer2,operator2, va 


lue2)) 
.and(Expression.comparison(column Family3,qualifer3,operator3, va 
lue3)) 





例子 中 使 用 创建 者 模式 风格 的 辅助 方法 生成 一 个 结合 了 3 个 不 同 索 
引 的 复杂 表达 式 。 表 达 式 最 低级 别 的 操作 是 Comparison ， 它 允许 用 户 
指定 实际 索 slated es ta 吾 法 来 选择 匹配 比较 值 和 运算 符 的 
值 。 表 9-2 列 出 了 可 能 选择 的 运算 符 


429-2 Comparison.Operator 可 选 值 


运算 符 











一 
= mw 和 


用 户 必须 指定 一 个 列 族 和 现 有 索引 的 限定 符 ， 人 否则 将 抛 出 
IllegalStateException 异常 。 














Comparison 类 有 一 个 可 选 的 includeMissing 参数 ， 它 同 4.1.3 节 
的 “单列 值 过 滤器 (SingleColumnValueFilter ) ”中 所 描述 的 
filterIfMissing 参数 类 似 。 用 户 可 以 使 用 这 个 参数 对 扫描 中 应 返回 
的 行进 行 微调 。 





排列 顺序 由 在 表达 式 中 第 一 个 被 处 理 的 索引 来 定义 ， 而 其 他 索引 则 
被 用 来 和 第 一 个 索引 求 交 集 Cand) ， 或 者 求 并 集 Cor) 。 换 和 句 话 说， 
只 有 使 用 相同 的 索引 时 ， 复 杂 表 达 式 的 排序 才 是 可 预见 的 。 


IHBase 相 较 于 ITHBase 的 好 处 是 它 获 得 了 相同 的 一 致 
护 基于 数据 表 中 已 存储 的 列 na 的 一 致 性 
表 。 同 时 ， 它 具有 以 下 缺点 


它 的 入 侵 性 很 强 ， 因 为 它 需 要 额外 的 JAR 文 件 和 配置 来 蔡 换 重要 的 
客户 问 类 和 服务 端 类 。 

它 需 要 额外 的 资源 ， 尽 管 它 用 内 存 交 换 了 额外 的 MO 需求 。 

它 在 按照 基于 辅助 索引 定义 的 排列 顺序 查询 数据 时 ， 其 需要 在 数据 
表 上 做 随机 查找 。 

它 在 最 新 版 本 的 HBase © 中 可 能 无 法 使 用 。 


Pp Ath E AF 


目前 也 有 一 些 方法 基于 协 处 理 器 来 实现 索引 方案 多 。 使 用 协 处 理 
器 框架 提供 的 服务 器 端的 钩子 函数 可 以 实现 类 似 于 ITHBase 和 IHBase 的 
索引 ， 并 且 不 用 替换 任何 客户 端 类 和 服务 器 端 类 。 协 处 理 器 将 为 每 一 个 
region 载 入 索引 层 ， 并 维护 索引 。 


代码 可 以 利用 扫 摘 费 钧 子 透 明 地 所 历 一 个 正常 的 数据 表 ， 也 可 以 所 


历 这 张 表 上 的 索引 视图 。 索 引 的 定义 可 能 需要 存放 在 外 部 模式 中 ， 并 由 
一 个 协 处 理 咒 基 类 读 取 ， 或 者 附加 在 一 个 列 族 的 属性 定义 中 。 


本 ws ds 
| 由 于 这 些 工作 都 还 处 于 早期 阶段 ， 编 写本 书 时 可 能 
还 没有 太 多 相关 的 内 容 介 绍 。 如 果 你 感 兴趣 ， 可 以 留意 在 线 


问题 跟踪 系统 以 得 看 相关 更 新 。 











额外 的 





























94 搜索 集成 


使 用 索引 用 户 可 以 按照 行 键 以 外 的 顺序 来 遍历 数据 表 。 但 用 户 仍然 
受 限 于 使 用 键 或 过 滤器 来 筛选 数据 ， 或 者 直接 遍历 数据 来 查找 所 需 的 内 
容 。 一 个 非常 普遍 的 需求 是 使 用 任意 关键 字 来 搜索 数据 ， 满 足 这 种 需求 
往往 需要 集成 一 个 完整 的 搜索 引擎 。 

常见 的 选择 是 基于 Apache Lucene 的 解决 方案 ， 例 如 ， 使 用 Lucene 或 
者 Solr (一 个 基于 Lucene 的 高 性 能 的 企业 级 搜索 服务 器 ©) 。 类 似 于 索 
引 解 决 方案 ， 以 下 是 一 系列 可 行 的 方法 。 


ee sin E E 


客户 端 管理 的 实现 需要 使 用 HBase 存 储 数据 ， 同 时 使 用 MapReduce 
任务 来 建立 索引 ， 还 需 使 用 HBase 作 为 Lucene 的 后 台 存 储 。 另 一 种 实现 
方法 是 把 数据 表 的 更 新 也 转发 到 邻近 的 索引 服务 器 中 。 在 HBase 上 实现 
引 的 存储 。 


一 个 不 错 的 客户 端 管理 解决 方案 的 实现 是 Facebook 的 收 件 箱 搜 索 系 
2 (Facebook inbox search) 。 以 下 是 其 大 致 模式 。 


ee 
JÍT o 

列 是 消息 中 被 索引 的 词语 。 

。 版 本 是 消息 ID。 

值 包括 附加 信息 ， 例 如 ， 词 组 在 文件 中 的 位 置 。 


这 个 模式 使 得 用 户 很 容易 在 收 件 箱 中 搜索 包含 特写 关键 词 的 消息 。 
布尔 运算 符 ， 例 如 ，and 或 or ， 可 以 在 客户 并 逻辑 中 实现 ， 并 用 来 归 
并 找到 的 文件 列表 。 用 户 也 可 以 有 效 地 实现 输入 提示 查询 ， 用 户 可 以 开 
始 键 入 一 个 词 ， 搜 索 将 找到 所 有 包含 以 用 户 输入 作为 前 级 的 词 的 消息 。 

















Lucene 


独立 于 HBase 使 用 的 Lucene 或 者 其 派生 的 解决 方案 可 以 通过 


MapReduce 来 建立 索引 。 一 个 外 部 托管 的 项 目 立 提供 了 
BuildTableIndex 类 ， 这 个 类 以 前 是 HBase 中 contrib 包 的 一 部 分 。 该 类 
会 扫 朱 整个 表 ， 并 建立 Lucene 索 引 ， 索 引 最 终 以 HDFS 上 的 目录 形式 来 
存储 ， 索 引 的 数量 取决 于 使 用 的 reducer 数 目 。 这 些 索 引 可 以 被 下 载 到 基 
于 Lucene 的 服务 器 上 ， 并 且 使 用 类 似 于 Lucene 提 供 的 MultiSearcher 
类 来 进行 本 地 访问 。 


另外 一 种 方法 是 通过 运行 只 有 一 个 reducer 的 MapReduce 作 业 ， 或 者 
使 用 Lucene 中 的 索引 合并 工具 来 合并 多 个 索引 。 合 并 后 的 索引 通常 性 能 
ie 合并 ， 以 及 最 后 能 够 提供 服务 所 需要 经 历 的 时 
间 将 更 长 。 


在 一 般 情 况 下 ， 这 种 方法 只 使 用 HBase 来 存储 数据 。 如 采 通 过 
Lucene 执 行 一 个 搜索 ， 通 常 只 返回 匹配 的 行 键 。 随 机 查找 数 据 表 需 要 显 
示 文 档 。 如 果 伍 找 的 文档 数 很 多 ， 查 找 过 程 可 能 需要 相当 长 的 时 间 。 一 
个 更 好 的 解决 方案 是 把 搜索 与 存储 的 数据 直接 结合 起 来 ， 从 而 避免 额外 
的 随机 碍 找 开 销 。 























HBasene 


Hbasene © 选择 的 方法 是 直接 在 HBase 内 部 建立 搜索 索引 ， 同 时 为 
用 户 提 供 Lucene 的 API。 它 把 每 个 文档 的 字段 Cfield) 、 词 (term) 存 
储 在 一 个 单独 的 行 ， 同 时 将 包含 这 个 词 的 文档 存储 在 这 一 行 的 列 中 。 


它 同 时 也 在 同一 张 表 中 存储 了 其 他 支持 Lucene 查 询 的 相关 信息 。 它 
实现 了 一 个 IndexWriter ， 该 类 可 以 直接 把 文档 存储 在 HBase 表 中 ， 就 
eg 正常 的 Lucene API 插 入 文档 一 样 。 下 面 是 一 个 HBasene 测 试 类 的 
列子 。 











private static final String[] AIRPORTS = { "NYC","JFK","EWR","SEA", 
"SFO", "OAK", "SIC" }; 


private final Map< String,List< Integer>> airportMap = 
new TreeMap< String,List< Integer>>(); 


protected HTablePool tablePool; 
protected void doInitDocs() throws CorruptIndexException, IOException { 


Configuration conf = HBaseConfiguration.create(); 
HBaseIndexStore. createLuceneIndexTable("idxtbl", conf, true) ; 


tablePool = new HTablePool(conf,1@) ; 
HBaseIndexStore hbaseIndex = new HBaseIndexStore(tablePool, conf, 
"idxtbl"); 
HBaseIndexWriter indexWriter = new HBaseIndexWriter (hbaseIndex, "id" ) 
for(int i = 100;i >= 0;--i){ 
Document doc = getDocument(i); 
indexwriter.addDocument(doc,new StandardAnalyzer(Version.LUCENE_ 30 


private Document getDocument(int i){ 

Document doc = new Document(); 

doc.add(new Field("id", "doc" + i,Field.Store.YES,Field.Index.NO)); 

int randomIndex =(int)(Math.random() * 7.0f); 

doc.add(new Field("airport",AIRPORTS[ randomIndex],Field.Store.NO, 
Field. Index. ANALYZED_NO_NORMS)); 

doc.add(new Field("searchterm",Math.random() > @.5f ? 
"always" : "never", 
Field.Store.NO,Field.Index.ANALYZED_NO_NORMS) ) ; 

return doc; 


} 


public TopDocs search() throws IOException { 
HBaseIndexReader indexReader = new HBaseIndexReader(tablePool, "idxt 
bl", 
"id")5 
HBaseIndexSearcher indexSearcher = new HbaseIndexSearcher (indexRead 
er); 


TermQuery termQuery = new TermQuery(new Term("searchterm", "always") ) 


Sort sort = new Sort(new SortField("airport",SortField.STRING) ) ; 

TopDocs docs = this.indexSearcher.search(termQuery 
.createWeight(indexSearcher) ,null,25,sort, false) ; 

return docs; 


} 


public static void main(String[] args)throws IOException { 
doInitDocs(); 
TopDocs docs = search(); 
// use the returned documents... 


} 





y 


IMATE TP ed AP eS], HERET I A 


询 。 用 户 可 能 注意 到 类 似 于 Lucene API 有 很 多 小 的 修改 和 不 同 ， 这 些 修 
改 是 为 了 文 持 以 HBase 为 后 台 的 索引 写 操作 。 


| we l, 
一 一 ”截至 写本 书 的 时 候 ， 这 个 项 目 更 像 是 一 个 验证 可 行 
性 的 原型 系统 ， 而 不 是 一 个 已 经 可 以 作为 产品 使 用 的 实现 。 








Pp Ath E at 


另 一 种 方法 实现 了 一 个 类 似 于 基于 Lucene 的 数据 碍 询 功能 的 数据 
表 ， 该 方法 目前 正在 开发 中 多， 并 基于 协 处 理 器 。 使 用 协 处 理 器 提供 
的 钩子 函数 来 维护 索引 ， 索 引 直 接 存储 在 HDFS 上 。 每 个 region 都 有 目 己 
的 索引 ， 通 过 搜索 分 布 在 所 有 region 上 的 索引 以 获取 完整 的 结果 。 


这 只 是 一 个 展示 协 处 理 器 功能 的 例子 。 与 使 用 协 处 理 需 建立 辅助 索 
引 类 似 ， 用 户 可 以 选择 存储 实际 索引 的 位 置 : 既 可 以 存储 在 另 一 个 表 
中 ， 也 可 以 存储 在 其 他 的 外 部 存储 空间 。 这 个 框架 提供 了 很 大 的 选择 余 
地 ， 用 户 实 现 的 代码 可 以 按 自 己 的 需求 作出 选择 。 




















95 事务 


讨论 HBase 事 务 看 起 来 有 点 违背 用 户 对 HBase 的 第 一 印象 。 但 是 ， 
辅助 索引 的 例子 展示 了 ， 在 一 些 应 用 场景 下 ， 用 户 可 以 对 HBase 提 供 的 
a all 并 且 可 以 引入 一 些 在 传统 关系 型 数据 库 系 统 下 
和 常见 的 概念 。 


其 中 的 一 个 概念 就 是 事务 ， 传 统 关 系 型 数据 库 通 常 能够 提供 跨行 和 
跨 表 的 ACID 保 证 。 有 了 时 HBase 也 需要 这 些 保证 。 例 如 ， 更 新 数据 表 和 对 
应 的 辅助 索引 表 时 ， 束 需要 事务 来 保证 一 致 性 。 


通常 情况 下 ， 用 户 并 不 需要 事务 ， 因 为 范式 化 的 数据 模式 能 够 修 转 
化 成 单个 表 的 存储 ， 所 以 此 时 不 需要 分 布 式 事务 的 文 持 ， 同 时 也 不 需要 
为 保证 一 致 性 而 产生 额外 的 开销 。 但 是 ， 如 果 用 户 还 需要 一 致 性 支持 ， 
以 下 是 几 种 可 选 的 解决 方案 。 


事务 型 HBase 


带 索 引 的 事务 型 HBase (Indexed Transactional HBase) 项 目 有 一 些 
取代 默认 客户 端 类 和 服务 端 类 的 扩展 类 ， 它 们 增加 了 路 行 甚至 路 表 的 事 
务 文 持 。 在 region 服 务 器 中 ， 更 准确 地 说 ， 每 个 region 都 保持 了 一 个 事务 
的 列表 。 该 列表 是 由 beginTransaction() 调用 初始 化 ， 并 且 由 相应 的 
commit() 调用 结束 。 每 次 读 写 操作 都 有 一 个 事务 ID， 以 保护 调用 不 受 
其 他 事务 影响 。 














ZooKeeper 


HBase 运 行 时 需要 一 个 ZooKeeper 和 集群 ， 它 在 集群 的 启动 中 扮演 着 种 
子 或 引导 启动 的 角色 。 有 一 些 可 用 的 模板 和 方法 展示 了 如 何 将 
ZooKeeper 作 为 一 个 事务 来 控制 后 端 。 例 如 ，Cages C 
http://code.google.com/p/cagesl ) 项 目 提 供 了 一 个 锁 的 抽象 概念 ， 即 跨 多 
个 资源 的 锁 ， 并 计划 增加 一 个 专门 的 事务 类 来 把 ZooKeeper 当 作 分 布 式 
协调 系统 使 用 。 


ZooKeeper 也 提供 了 一 个 能 够 被 用 于 实现 两 阶段 提交 协议 的 锁 方 
案 。 它 使 用 一 个 特定 的 znode 来 代表 事务 ， 并 且 每 个 参与 的 客户 端 对 应 


一 个 孩子 znode。 客 户 端 可 以 使 用 目 己 的 znode 标 志 上 自己 在 事务 中 的 那 部 
a 。 其 他 客户 端 可 以 监控 同 级 的 znode， 并 采取 适当 的 
{va Y 


9.6 布 隆 过 滤器 


5.1.3 节 介绍 了 在 列 族 定义 时 声明 的 布 隆 过 滤器 (Bloom filter) 语 
法 ， 并 指出 布 隆 过 滤器 在 某 些 特定 的 使 用 场景 中 更 有 意义 。 


使 用 布 隆 过 滤器 的 根本 原因 是 默认 机 制 决 定 了 一 个 存储 文件 是 否 
舍 特 定 的 受 限 于 可 用 块 索引 的 行 键 ， 同 时 这 个 索引 又 是 相当 粗 粒 度 的 ， 
该 索引 只 存储 了 文件 包含 块 的 开始 键 。 例 如 ， 系 统 使 用 默认 的 64 KB 作 
人 
行 键 数 相 同 。 


如 果 我 们 进一步 假设 每 个 单元 格 的 平均 大 小 是 200 字 节 ， 那 么 用 户 
将 处 理 存储 在 一 个 文件 中 的 超过 500 万 个 单元 格 。 如 果 用 户 随 机 查找 一 
个 行 键 ， 则 这 个 行 键 很 可 能 处 在 两 个 块 开始 键 之 间 的 位 置 。 对 于 HBase 
来 说 ， 判 断 这 个 键 是 否 真实 存在 的 唯一 方法 是 加 载 这 个 块 ， 并 且 扫 描 它 
来 查找 这 个 键 。 


同时 以 下 情况 会 使 上 述 问 题 变 得 更 复杂 ， 对 于 一 个 典型 的 应 用 程序 
来 说 ， 用 户 通 常会 以 一 定 速 率 更 新 数据 ， 这 将 导致 内 存 中 的 数据 被 刷 写 
到 磁盘 上 上， 并 且 之 后 系统 会 把 它们 合并 成 更 大 的 存储 文件 。 由 于 minor 
合并 仅 合 并 最 近 几 个 存储 文件 ， 直 到 合并 后 的 文件 达到 配置 的 最 大 大 
小 。 最 终 系统 中 将 会 有 很 多 存储 文件 ， 所 有 的 这 些 文件 都 是 候选 文件 ， 
其 可 能 包含 一 些 用 户 请 求 行 键 的 单元 格 ， 如 图 9-4 中 的 例子 所 示 。 





























| Block | 
-一 一 一 EE om = 一 一 oom 


0 
块 案 引 Yes Yes w ws w ys øw w. = Ss iS Žž e å e Ss i 6 seeks/blocks loaded 
布 隆 过 滤器 No No Maybe No Mo Maybe: No Maybe No Maybe —® 2 seeks/blocks loaded 


问题 : 哪个 文件 (可能) 有 “row-R” ? 





图 9-4 ”使 用 布 隆 过 滤器 能 够 帮助 减少 MO 操作 的 数量 


这 些 文件 都 来 目 同一 个 列 族 ， 所 以 它们 行 键 的 分 布 很 相似 。 尽 管 只 
有 几 个 文件 包含 特定 行 的 更 新 ， 文 件 的 块 案 引 还 是 窗 盖 了 整个 行 键 范 
围 。 块 索引 能 确定 文件 中 是 否 包含 茶 个 行 键 。region 服 务 器 需要 加 载 每 
-个 块 来 检查 该 块 中 是 否 实际 包含 该 行 的 单元 格 。 


另 一 方面 ， 使 用 布 隆 过 滤器 的 好 处 是 ， 用 户 可 以 立即 判断 一 个 文件 

征 否 包含 特定 的 行 键 。 这 个 过 滤器 的 特性 是 : 如 条 这 个 文件 不 包含 这 个 

行 ， 它 会 给 你 一 个 明确 的 答复 ， 但 是 如 末 文 什 包含 这 一 行 时 ， 管 复 却 可 

能 有 误 ， 即 它 声 称 文 件 包含 这 个 数据 而 实际 却 并 非 如 此 。 错 误 肯 定 答复 

的 数量 可 以 被 调整 ， 通 常 被 设置 为 196， 这 意味 着 过 滤器 中 关于 一 个 文 

件 包含 一 个 请 求 行 的 报告 中 有 1% 是 错误 的 ， 因 此 可 能 会 有 一 个 块 被 错 
误 地 加 载 和 检查 。 























”对 单个 的 get 操 作 来 说 ， 这 并 不 能 转化 为 即时 的 性 能 
提升 ， 因 为 HBase 的 读 取 是 并 行 的 ， 并 且 最 终 被 读 磁 盘 延 时 约 


束 。 减 少 不 必 要 的 块 加 载 数量 可 以 提高 整个 集群 的 吞吐 率 。 


用 户 可 以 从 例子 中 看 出 块 加 载 数量 大 大 减少 了 ， 这 在 负载 很 重 的 系 
统 中 会 产生 很 大 的 影响 。 为 了 提高 效率 ， 用 户 还 必须 使 用 一 种 特定 的 更 
新 模式 : 如 果 用 户 定 期 修改 所 有 行 ， 那 么 大 部 分 的 存储 文件 部 将 包含 用 
户 碍 找 行 的 数据 。 这 种 场景 不 适合 使 用 布 隆 过 滤 硕 。 但 是 ， 如 宋 用 户 批 
量 更 新 数据 ， 使 得 一 行 数 据 每 次 只 被 写 入 到 少数 几 个 存储 文件 中 ， 那 么 
过 滤器 就 能 够 为 减少 整个 系统 MO 操作 的 数量 发 挥 很 大 作用 。 


用 户 还 会 在 使 用 块 缓存 时 发 现 男 一 个 优点 。 因 为 加 载 更 少 的 块 将 导 
致 更 少 的 缓存 流动， 所 以 缓存 的 命中 率 也 会 相应 提高 。 由 于 服务 器 在 大 
部 分 时 候 加 载 的 都 是 包含 请 求 数据 的 块 ， 相 关 的 数据 将 有 更 大 的 机 会 留 
在 块 缓存 中 ， 随 后 读 操作 可 以 使 用 这 些 数据 。 


除了 更 新 模式 ， 男 一 个 决定 是 否 在 应 用 场景 中 使 用 布 隆 过 滤器 的 因 
素 是 添加 开销 。 每 项 会 在 过 滤器 中 占用 约 1 字 节 的 存储 空间 。 回 到 上 面 
的 例子 中 ， 存 储 文件 的 大 小 是 1 GB 时 ， 假 设 用 户 只 存储 计数 器 类 型 数据 
《 即 8 个 字 节 的 long 型 值 ) ， 并 且 加 上 KeyValue 信息 〈 即 它 的 坐标 ， 
或 行 主 键 、 列 族 名 、 列 限定 词 、 时 间 惟 和 类 型 ) 的 开销 ， 那 么 每 个 单元 
格 大 概 是 20 字 节 【《 假 设 用 户 使 用 很 短 的 键 ) 。 此 时 布 隆 过 滤器 的 大 小 将 
是 存储 文件 的 二 十 分 之 一 ， 大 概 占用 51 MB 空间 。 


现在 假设 用 户 的 单元 格 的 平均 大 小 是 1 KB， 那 么 过 滤器 只 需要 1 
MB 空间 。 考 虑 到 过 滤器 在 今后 需要 发 挥 优化 作用 ， 与 一 个 1 GB 甚至 更 
大 的 文件 相 比 ， 一 个 几 百 KB 的 行 级 布 隆 过 滤器 的 开销 甚 小， 这 种 情况 
下 使 用 过 滤器 是 有 用 的 。 


最 后 一 个 问题 是 : 使 用 行 级 还 是 行 加 列 级 的 布 隆 过 滤器 ? 这 取决 于 
用 户 的 使 用 模式 。 如 果 用 户 只 做 行 扫描 ， 那 么 使 用 更 具体 的 行 加 列 级 的 
布 隆 过 小 器 将 不 会 有 任何 帮助 。 即 使 用 户 使 用 行 加 列 的 读 操作 时 ， 使 用 
行 级 的 布 隆 过 滤 希 仍然 可 以 减少 需要 检查 的 文件 数量 ， 但 是 反 过 来 使 用 
行 加 列 级 的 布 隆 过 滤器 却 不 能 为 行 扫描 提供 更 好 的 性 能 。 


当 用 户 不 能 批量 更 新 特定 的 一 行 ， 并 且 最 后 所 有 的 存储 文件 都 包 合 
该 行 的 一 部 分 时 ， 行 加 列 级 的 布 隆 过 滤器 很 有 用 。 更 具体 的 行 加 列 级 的 
过 小 絮 能 够 识别 出 哪个 文件 包含 用 户 请 求 的 数据 。 显 然 ， 如 果 用 户 总 是 




















加 载 整 行 ， 那 么 这 个 过 滤器 仍然 很 难 起 到 作用 ， 因 为 region 服 务 器 无 论 
如 何 都 需要 加 载 每 个 文件 中 匹配 的 块 。 


因为 行 加 列 级 的 过 滤器 将 需要 更 多 的 存储 空间 ， 所 以 用 户 需 要 计算 
是 否 值 得 花费 额外 资源 。 还 有 一 点 很 有 趣 ， 布 隆 过 滤器 能 够 容纳 的 元 素 
数量 有 一 个 最 大 值 。 如 果 用 户 的 存储 文件 中 有 太 多 单元 格 ， 实 际 的 元 系 
数量 可 能 会 超过 最 大 值 ， 并 且 需 要 回 退 到 使 用 行 级 过 滤器 。 

图 9-5 总 结 了 不 同 级 别 布 隆 过 涯 圳 的 选择 标准 。 

根据 用 户 的 应 用 场景 ， 使 用 布 隆 过 滤器 可 能 有 区 于 提高 整个 系统 的 
性 能 。 如 果 可 能 的 话 ， 用 户 应 当 尽 量 使 用 行 级 布 隆 过 滤器 ， 因 为 它 在 额 
外 的 空间 开销 和 利用 选择 过 小 存储 文件 提升 性 能 之 间 获 得 了 很 好 的 平 
衡 。 只 有 当 用 户 使 用 行 级 布 隆 过 小 右 没 有 性 能 提升 的 时 候 ， 再 考虑 使 用 
开销 更 大 的 行 加 列 级 布 隆 过 滤 占 。 


使 用 布 隆 过 滤器 














几乎 涵盖 
了 所 有 存储 


文件 
更 新 
所 有 列 





图 9-5 ”使 用 哪 种 布 隆 过 滤器 的 选择 标准 


9.7 版 本 管理 


我 们 需要 在 回顾 HBase 如 何 存储 和 检索 数据 以 后 ， 再 来 了 解 版 本 管 
理 机 制 。 用 户 使 用 时 间 戳 时 需要 注意 一 些 高 级 技巧 《假设 用 户 已 经 了 解 
它们 的 行为 模式 ) ， 这 些 高 级 技巧 可 能 适用 于 某 些 特定 的 使 用 场景 。 但 
是 ， 同 时 这 些 内 容 也 暴露 了 版 本 管理 的 的 复杂 性 ， 用 户 也 需要 了 解 这 


些 。 


9.7.1 隐 式 版 本 控制 


在 用 户 确 保 具 服务 器 上 的 时 钟 是 同步 的 之 前 ， 有 些 问 题 就 已 经 被 指 
出 了 。 其 中 一 个 可 能 出 现 的 问题 是 ， 当 用 户 路 服务 咒 把 数据 存储 在 多 行 
中 时 ， 使 用 隐 式 的 时 间 惟 可 能 让 用 户 最终 得 到 完全 不 同 的 时 间 集 。 


例如 ， 假 设 用 户 使 用 HBase URL 短 网 址 服务 ， 并 且 为 现 有 用 户 存储 
3 个 新 缩短 过 的 URL。 所 有 的 键 都 被 认为 是 完全 分 布 式 的 ， 所 以 3 个 新 行 
最 后 在 不 同 的 region 服 务 器 上 。 进 一 步 假设 这 些 服务 器 的 时 间 都 相 隅 一 
个 小 时 ， 如 果 用 户 通过 扫描 客户 端 来 获取 最 近 一 小 时 更 新 的 缩写 URL 列 
表 ， 用 户 将 会 遗漏 一 些 数据 ， 因 为 它们 被 保存 时 的 时 间 惟 与 客户 端 认为 
的 当前 时 间 相 差 超 过 一 小 时 。 


用 户 可 以 通过 在 存储 这 些 值 时 设置 商定 的 或 者 共 译 的 时 间 惟 来 避免 
这 个 问题 。put 操作 允许 用 户 设 置 一 个 客户 端的 时 间 玲 作为 蔡 代 ， 并 以 
此 履 兰 服务 器 的 时 间 。 显 然 ， 依 靠 服 务 吉 来 完成 这 项 工作 更 方便 ， 但 
是 ， 在 一 些 情况 下 用 户 可 能 还 需要 使 用 这 个 方法 多。 


region 被 拆 分 骏 露 了 服务 器 时 间 不 一 致 引起 的 另 一 个 问题 。 假 设 用 
户 把 一 个 值 存 储 在 一 个 比 机 群 中 所 有 其 他 服务 器 都 超前 一 小 时 的 服务 器 
上 ， 并 且 使 用 服务 器 隐 式 的 时 间 戳 。 十 分 钟 后 这 个 region 被 拆 分 了 ， 并 
且 用 户 一 半 的 数据 更 新 被 移 到 了 另 一 个 服务 器 上 。5 分 钟 后 ， 当 用 户 再 
加 同样 的 列 中 插入 一 个 新 值 时 ， 服 务 器 会 目 动 旅 加 时 间 戳 。 现 在 新 值 被 
认为 比 之 前 添加 的 数据 更 老 ， 因 为 第 一 个 版 本 的 时 间 戳 比 当前 服务 器 的 
时 间 超 前 一 小 时 。 此 时 如 果 用 户 使 用 标准 的 get 方法 去 检索 这 个 值 的 最 
新 版 本 ， 则 会 得 到 第 一 个 之 前 存 的 值 。 


所 有 的 服务 器 时 间 同 步 之 后 ， 用 户 还 应 该 了 解 一 些 有 趣 的 副作用 。 























首先 ， 一 个 特定 的 时 间 可 能 重 现 一 列 的 其 他 版 本 。 这 种 情况 发 生 在 用 户 
存储 的 版 本 数 比 列 族 级 配置 的 版 本 数 更 多 的 时 候 。 例 如 ， 当 默认 是 保持 
一 个 单元 或 者 一 个 值 的 最 近 3 个 版 本 时 。 


如 果 用 户 同 同一 列 中 插入 10 次 新 值 ， 并 且 通 过 使 用 Get 类 的 
setMaxVersions() 函数 来 要 求 保 留 所 有 版 本 的 完整 列表 ， 用 户 将 永远 
只 能 得 到 表 模 式 中 配置 的 那么 多 个 版 本 ， 即 默认 配置 的 最 近 3 个 版 本 。 
但 是 ， 当 用 户 显 式 地 删除 最 后 两 个 版 本 时 会 发 生 什 么 呢 ? 


例 9.1 删除 显 式 时 间 惟 的 示例 应 用 程序 








for(int count = 1;count < = 6;count++){ @ 
Put put = new Put(ROW1); 
put.add(COLFAM1, QUAL1, count, Bytes. toBytes("val-" + count)); @ 
table.put(put); 

} 


Delete delete = new Delete(ROW1); © 
delete.deleteColumn(COLFAM1,QUAL1,5); 
delete.deleteColumn(COLFAM1, QUAL1, 6) ; 
table.delete (delete) ; 





各 存储 同一 列 6 次 。 

印 使 用 循环 变量 把 版 本 设 为 一 个 特殊 的 值 。 

全 删除 最 新 的 两 个 版 本 。 

当 你 运行 这 个 例子 时 ， 你 应 该 可 以 看 到 以 下 输出 : 





After put calls... 

KV: row1/colfam1:qual1/6/Put/vlen=5,Value: val-6 
KV: row1/colfam1:qual1/5/Put/vlen=5,Value: val-5 
KV: row1/colfam1:qual1/4/Put/vlen=5,Value: val-4 
After delete call... 

KV: row1/colfam1:qual1/4/Put/vlen=5,Value: val-4 
KV: row1/colfam1:qual1/3/Put/vlen=5,Value: val-3 
KV: row1/colfam1:qual1/2/Put/vlen=5,Value: val-2 


pT 


有 趣 的 现象 是 ， 用 户 使 得 版 本 2 和 版 本 3 复活 了 。 这 是 由 于 服务 器 把 
内 部 处 理 推 迟到 一 个 定义 好 的 时 间 执 行 。 该 列 的 老 版 本 仍然 存在 ， 因 此 
删除 较 新 的 版 本 会 使 它们 再 次 出 现 。 

这 种 情形 只 可 能 出 现在 major 合 并 被 执行 之 前 ， 在 这 之 后 老 版 本 会 
被 永久 删除 ， 而 保留 的 版 本 数 基 于 已 配置 的 最 大 保留 版 本 数 。 


| a da 
一 用 户 可 以 用 示例 代码 中 一 些 被 注释 掉 的 代码 来 强制 
执行 刷 写 和 major 合 并 。 如 果 用 户 重 新 运行 这 个 例子 ， 将 会 看 
到 这 样 的 结果 : 











After put calls... 

KV: row1/colfam1:qual1/6/Put/vlen=5,Value: 
KV: row1/colfam1:qual1/5/Put/vlen=5, Value: 
KV: row1/colfam1:quali/4/Put/vlen=5, Value: 


After delete call... 
KV: row1/colfam1:qual1/4/Put/vlen=5, Value: 





由 于 老 版 本 已 被 删除 ， 它 们 不 会 再 出 现 。 





最 后 ， 在 处 理 时 间 戳 时， 还 有 另外 需要 注意 的 一 个 问题 : 删除 标 
记 。 在 HBase 中 ， 删 除 操作 的 本 质 是 添加 一 个 带 有 特定 时 间 戳 的 募 碑 标 
记 到 存储 中 。 在 此 基础 上 ， 它 屏蔽 直接 指定 的 对 应 版 本 的 数据 ， 或 者 一 








个 列 删 除 标 记 会 抹 去 比 给 定时 间 惟 更 老 的 所 有 版 本 的 数据 。 例 9.2 用 
Shell 展 示 了 上 述 情 况 。 


例 9.2 ”使 用 显 式 时 间 惟 删除 可 以 屏 贡 之 前 的 put 操作 





hbase(main):001:@> create 'testtable','colfam1' 


© row(s)in 1.1100 seconds 


hbase(main) :002:@> Time.now.to_i 


=> 1308900346 


hbase(main):003:@> put 'testtable', 'row1', 'colfam1:qual1', 'val1' 


@ 
© row(s)in 0.0290 seconds 


hbase(main):004:@> scan 'testtable' 


ROW COLUMN+CELL 
rowlcolumn=colfam1: qual1, timestamp=1308900355026, value=val1 
1 row(s)in 0.0360 seconds 


hbase(main):005:@> delete 'testtable', 'row1', 'colfam1:qual1' 


@ 
© row(s)in 0.0280 seconds 


hbase(main):006:@> scan 'testtable' 


ROW COLUMN+CELL 
© row(s)in 0.0260 seconds 


hbase(main):007:@> put 'testtable', 'row1', 'colfam1:qual1','val1',\ 


Time.now.to_i - 50000 


© 
© row(s)in 0.0260 seconds 


hbase(main) :@08:@> scan 'testtable' 


ROW COLUMN+CELL 
© row(s)in 0.0260 seconds 


hbase(main):009:@> flush 'testtable' 


© 
© row(s)in 0.2720 seconds 


hbase(main):010:0> major_compact 'testtable' 


© row(s)in 0.0420 seconds 


hbase(main):011:0> put 'testtable', 'row1', 'colfam1:qual1','val1',\ 


Time.now.to_i - 50000 


© row(s)in 0.0280 seconds 


hbase(main):@12:@> scan 'testtable' 


ROW COLUMN+CELL 
Pow1 column=colfam1:qual1, timestamp=1308900423953,value=val1 
1 row(s)in 0.0290 seconds 





代 癌 新 创建 的 表 的 列 中 存 入 一 个 值 ， 运 行 扫描 来 验证 结果 。 





多 删除 列 的 所 有 值 ， 这 将 会 设置 一 个 带 有 当前 时 间 截 的 删除 标记 。 


全 再 一 次 把 值 存 入 列 中 ， 但 是 使 用 一 个 过 去 的 时 间 惟 ， 随 后 的 扫描 
没有 返回 被 屏蔽 的 值 。 


人 通过 对 表 的 刷 写 和 major 合 并 来 移 除 这 个 删除 标记 。 


7. ee 过 去 时 间 戳 的 值 ， 随 后 的 扫描 如 预期 一 样 显示 了 插 
AR 


这 个 例子 显示 了 在 菏 些 情况 下 ， 用 户 可 能 会 看 到 一 些 意 想不到 的 数 
据 。 但 是 ， 这 些 行为 都 是 可 以 由 HBase 的 架构 来 解释 的 ， 并 且 它 们 的 发 
生 也 都 是 确定 的 。 


9.7.2 ”上 自 定 义 版 本 控制 


由 于 你 可 以 指定 自己 时 间 戳 的 值 ， 因 此 也 可 以 创建 自己 的 版 本 控制 
计划 。 在 履 盖 服务 器 端 基于 同步 的 服务 喜 时 间 的 时 间 惟 时 ， 用 户 可 以 不 
使 用 基于 时 间 的 版 本 。 


例如 ， 用 户 可 以 把 时 间 惟 和 一 个 全 局 数字 生成 器 结合 起 来 使 
用 ， 这 个 生成 器 提供 了 从 “1” 开 始 一 直 增 加 的 顺序 数字 。 每 次 用 户 插 入 
一 个 新 值 时 就 会 获得 一 个 新 数字 ， 并 且 在 调用 put 函数 时 会 用 到 它 。 





用 户 必 须 为 每 个 put 操作 都 这 么 做 ， 人 否则 服务 铝 将 插入 一 个 基于 服 
Fe eis Seng ANY Te] ADIN EER KRAAI 的 描述 中 有 一 个 标志 可 以 表明 你 使 用 的 
古 目 定义 的 时 间 戳 《〈 即 目 定义 的 版 本 控制 策略 ) 。 如 果 用 户 没 有 设置 这 
ME, ABA ERS EIA RA BARA as E E R 





| 
S 当 使 用 自己 的 时 间 戳 值 时 ， 用 户 需 要 确保 彻底 地 测 
试 过 自己 的 解决 方案 ， 因 为 这 种 方法 并 没有 被 广泛 地 用 于 生 


po 








注意 ， 负 值 的 时 间 戳 值 也 未 经 过 测试 ， 尽 管 它 在 HBase 开 
发 圈 中 被 讨论 过 几 次 ， 但 是 它 从 来 没有 被 确认 能 够 正常 工 
作 。 








确保 同一 个 单元 的 两 次 单独 更 新 不 会 使 用 相同 的 时 间 
鹤 ， 这 样 会 造成 冲突 。 通 第 最 后 保存 的 值 是 可 见 的 。 


先 抛 开 这 些 警告 ， 下 面 是 一 些 展示 了 目 定 义 版 本 控制 模式 如 何 为 全 
局 表 模 式 设 计 带 来 区 处 的 例子 。 


记录 ID 


使 用 这 个 技术 的 典型 例子 在 9.5 节 中 进行 了 讨论 ， 即 Facebook 收 件 箱 
搜索 应 用 (Facebook inbox search) 。 它 使 用 时 间 惟 值 存 储 消 息 ID。 由 
于 这 些 ID 随 着 时 间 而 增长 ， 并 且 在 HBase 中 ， 版 本 的 隐 式 排列 顺序 是 降 
a e a 间 排 序 获 取 到 匹配 搜索 列 的 最 后 10 个 版 本 以 
得 | 最 近 10 条 ak. 


BFE eas 


A Re BUEN BIT. BN SEAL ao i BEE ae. AE aia AEP 
EY Te) Ac Pek a ERE FAT): 按照 一 个 单调 递增 的 数 升 序 排列 所有 存 








储 的 值 。 不 过 它们 的 区 别 更 微妙 ， 因 为 Java 计 时 喜 使 用 的 精度 是 坚 秒 ， 
这 意味 看 使 用 完全 相同 的 时 间 存 储 两 个 值 是 不 太 可 能 的 ， 但 并 不 是 完 
不 可 能 。 如 果 用 户 需 要 一 个 全 局 完全 唯一 的 版 本 控制 解决 方案 ， 依 赖 数 
字 生 成 费解 决 这 个 问题 。 

使 用 HBase 的 时 间 组 件 是 利用 其 架构 提供 的 额外 维度 的 一 种 有 趣 方 
式 。 用 户 的 自由 上 度 更 少 一 些 ， 因 为 它 只 接受 long 型 值 ， 这 与 行 和 列 键 
支持 任意 二 进 制 键 不 同 。 但 是 ， 它 可 以 解决 用 户 一 些 特定 使 用 场景 中 的 


问题 。 





© 例如 ， 用 户 可 以 使 用 Orderly ( http://github.com/mwdalton/orderly ) 
来 生成 组 合 行 键 。 


@ 详情 请 查看 关于 Socorro 的 Mozilla 维基 百科 页 面 < 


https:/wiki.mozilla.org/socorro ) 。 





© 详情 请 查阅 OpenTSDB 项 目的 网 站 〈 http://opentsdb.net ) ， 尤 其 推荐 
阅读 关于 它 的 模式 的 页 面 ( http://opentsdb.net/schema.html ) ， 因 为 它 
为 需要 高 性 能 存储 数据 查询 的 应 用 提供 了 先进 的 键 设计 概念 。 


(4) 查看 HavroBase ( https://grthub.com/spu//ara/hourobase ) 在 GitHub 上 
的 项 目 页 面 。 


©) ITHBase 项 目 最 开始 是 HBase 的 一 个 contrib 模 块 。 它 随后 被 转移 到 一 
个 外 部 库 ， 使 其 能 够 定义 HBase 的 不 同 版 本 ， 并 且 根 据 自 己 的 进度 来 开 
发 。 详 情 参 见 GitHub 的 项 目 页 面 ， 见 https://github.com/hbase-trx/hbase- 
transactional-tableindexed 。 





© 与 ITHBase 类 似 ，IHBase 最 开始 也 是 HBase 的 一 个 contrib 项 目 。 它 因 
为 同样 的 原因 被 转移 到 一 个 外 部 库 。 详 情 参见 GitHub 中 该 项 目的 页 面 。 
( http://github.com/ykulbaklihbase ) 它 的 JIRA 问 题 原 始 文档 在 网 上 的 
HBASE-2037 ( https://issues.apache.org/jira/browse/HBASE-2037 ) 里 。 


O 截止 到 写 这 本 书 的 时 候 ，IHBase 只 支持 到 HBase 的 0.20.5 版 本 。 


详情 参见 JIRA 问 题 跟踪 系统 里 的 HBASE-2038 ( 
http://issues.apache.org/jira/browse/HBASE-2038 ) 。 


© Solr 基 于 Lucene， 并 扩展 了 Lucene 以 提供 一 个 功能 完整 的 搜索 服务 。 
详情 请 参见 该 项 目 网 站 〈 http:/lucene.apache.org/ ) 。 


请 到 GitHub 的 项 目 页 面 查 看 详细 信息 并 获取 代码 ( 
https://github.com/akkumar/hbasene/tree/master/src/main/java/org/hbasene/T 
Ya 


(D GitHub 页 面 有 详细 信息 和 源 代码 C https://github.com/akkumar/hbasene 
) 


(2 HBASE-3529 ( https://issues.apache.org/jira/browse/HBASE-3529 ) 。 


(3 可 以 在 ZooKeeper 项 目 ( 
http://zookeeper.apache.org/doc/trunk/recipes.html#sc- 
recipes.twoPhasedCommit ) 页 面 找到 更 多 详细 信息 。 


一 个 不 常见 的 例子 是 基于 虚拟 化 的 服务 器 。 查 看 
http://support.ntp.org/bin/view/Support/KnownOsIssues#Section_9.2.2 列 出 
的 NTP 的 问题 。NTP 是 在 虚拟 机 上 和 常用 的 网 络 时 间 协 议 Network Time 


Protocol) 。 


(5) 查看 zk_idgen 项 目 〈 http://sourceforge.net/projects/zkidgen/ ) ， 它 是 
一 个 基于 ZooKeeper 的 数字 生成 右 的 例子 。 


第 10 章 ”集群 监控 


一 旦 局 动 HBase 集 群 ， 保 证 集群 持续 正常 运行 就 显得 非常 必要 。 本 
章 描 述 了 如 何 使 用 一 系列 工具 来 监控 集群 的 状态 。 








10.1 介绍 


监控 生产 系统 非 第 重要 ， 系 统 通 常会 有 多 种 监控 指标 ， 通 过 它们 用 
户 可 以 了 解 到 当前 状态 的 各 种 详细 信息 ，HBase 系 统 也 是 如 此 。 


HBase 实 际 上 是 从 Hadoop 继 承 了 监控 API， 然 而 Hadoop 是 一 个 面 同 
批 处 理 的 系统 ， 给 用 户 的 反馈 信息 往往 不 够 及 时 。HBase 则 要 求 更 加 实 
时 ， 因 为 HBase 常 被 用 来 处 理 随 机 在 线 访问 请 求 ， 例 如 ， 在 后 台 驱 动 网 
站 。 这 些 请 求 的 啊 应 时 间 需 要 维持 在 一 定 标 准 以 下 ， 以 保持 良好 的 用 户 
体验 一 一 通常 也 被 称 作 服 务 水 平 协 议 (SLA) 。 


对 分 布 式 系 统 来 说 ,管理 员 要 和 弄 清楚 系统 的 整体 状态 是 一 项 艰巨 的 
任务 ， 这 再 要 单独 检查 每 全 服务 器 的 状态 。 即 使 对 单机 系统 来 说 ， 当 管 
理 员 处 理 一 堆 原 始 日 志文 件 时 ， 要 捅 清楚 系统 情况 仍然 十 分 困难 。 当 系 
统 骨 尝 时 ， 了 人 解 问题 出 现 的 时 间 和 地 点 将 非常 有 用 。 但 是 当 你 面 对 
MB、GB 甚 至 TB 量 级 的 字符 文件 时 ， 这 种 努力 像 大 海 护 针 一 样 ， 可 以 
说 只 有 少 部 分 人 能 够 胜任 这 样 的 任务 。 即 使 用 户 拥有 高 超 的 日 志 阅 读 技 
巧 ， 也 将 花费 大 量 时 间 来 推算 和 验证 并 找 出 问题 的 根源 。 


这 显然 这 不 是 一 个 新 问题 ， 且 多 年 来 出 现 了 各 种 可 行 的 解决 方案 。 
这 些 解 决 方案 可 以 归属 于 可 视 化 和 监控 工具 两 类 ， 许 多 工具 包含 其 中 一 
类 或 两 类 功能 。 它 们 将 捕捉 到 的 系统 监控 指标 信息 图 形 化 ， 同 时 可 以 按 
时 间 筛 选 数据 ， 通 种 以 日 、 月 和 年 等 为 时 间 单 位 将 数据 显示 在 可 视 化 的 
人 


可 视 化 可 以 很 好 地 展示 定量 历史 数据 ， 但 是 对 于 超大 粒度 的 时 间 间 
隔 来 说 ， 了 解 系统 当前 的 运行 状态 仍然 很 困难 。 此 时 监测 文 持 系统 的 定 
性 数据 束 非 常 重要 了 ， 它 监听 用 户 的 行为 ， 检 查 数据 点 和 一 定时 间 范 围 
内 的 监控 指标 。 支 持 工 具 包 通常 都 提供 了 很 多 出 色 的 检测 工具 ， 因 此 用 
户 所 要 做 的 就 是 利用 它们 来 完成 自己 的 工作 。 用 户 通常 可 以 以 插件 的 形 
式 或 者 脚本 的 形式 扩展 和 添加 缺少 的 功能 ， 同 时 用 户 还 可 以 设 定 检 查 的 
频率 ， 其 频率 可 以 设置 为 从 几 秒 到 几 天 的 范围 。 


当 检 测 显 示 系 统 出 现 问题 或 者 完全 失效 时 ， 对 应 的 规避 操作 会 目 动 
执行 : 服务 器 可 以 被 下 线 、 重 局 或 者 修复 。 当 问题 依旧 存在 时 ， 会 有 别 






































的 规则 来 提升 问题 的 处 理 级 别 ， 例 如 ， 管 理 员 将 人 工 处 理 问 题 。 具 体 措 
施 包括 发 送 电 子 邮 件 、 短 信 或 者 拨打 电话 。 

市 场 上 有 很 多 监控 系统 可 供 选 择 。HBase 基 于 Java 的 特性 进行 开 
发 ， 并 且 和 Hadoop 关 系 密 切 ， 组 合 使 用 时 性 能 更 为 可 靠 ， 但 同时 系统 选 
择 更 为 受 限 。HBase 原 生 文 持 的 可 视 化 系统 是 Ganglia。 为 了 监控 系统 ， 
用 户 需 要 一 个 能 够 处 理 HBase 进 程 导出 的 、 基 于 JMX © 监控 指标 API 的 
At, WIR AH Bl Fe Nagios. 


re 
一 一 用 户 应 该 建立 一 个 完整 的 支持 系统 框架 ， 以 便 在 生 
产 系统 中 使 用 ， 即 使 用 户 只 是 在 使 用 HBase 做 原型 研究 或 者 概 
念 验 证 。 通 过 这 种 方式 你 可 以 开始 对 系统 的 各 个 数值 有 个 良 
好 的 认识 ， 从 而 可 以 正确 地 配置 系统 。 处 理 没有 监控 和 监控 
指标 的 集群 和 闭 着 眼 开车 一 样 。 














在 HBase 集 群 中 运行 负载 测试 很 有 用 ， 但 是 用 户 需 要 理解 
当前 系统 运行 情况 和 性 能 之 间 的 关系 。 使 用 可 视 化 工具 可 以 
帮 用 户 将 服务 器 和 子 系统 中 的 消息 串联 起 来 ， 这 对 理解 训 试 
结果 很 有 价值 。 


10.2 ”监控 框架 


每 个 HBase 进 程 〈 包 括 master 和 region 服 务 器 ) 都 会 提供 一 系列 监控 
指标 。 这 些 监控 指标 随后 可 以 被 各 种 监控 API 和 工具 使 用 ， 包 括 JMX 和 
Ganglia。 每 种 服务 器 都 有 多 组 监控 指标 ， 这 些 监控 指标 按 子 系统 分 组 并 
隶属 于 一 种 服务 器 。 例 如 ， 一 组 Java 虚 拟 机 (JVM) 提供 的 监控 指标 深 
a 包括 垃圾 回收 统计 和 内 存 


10.2.1 上 上 下文 、 记 录 和 监控 指标 
HBase 使 用 Hadoop 的 监控 框架 ， 并 继承 了 其 所 有 的 类 和 特性 。 这 个 


框架 基于 MetricsContext 接口 来 处 理 监 控 数 据点 的 生成 ， 并 使 用 这 些 
数据 点 监控 和 绘图 。 下 面 是 可 用 的 实现 列表 。 


GangliaContext 


用 来 推送 监控 指标 到 Ganglia， 细 节 请 参见 10.3 节 。 


FileContext 


将 监控 指标 写 入 磁盘 上 一 个 文件 中 。 


TimeStampingFileContext 


同样 将 监控 指标 写 入 磁盘 上 一 个 文件 中 ， 但 是 为 每 个 监控 指标 添加 
一 个 时 间 惟 前 级 。 这 让 文件 的 格式 和 日 志 记 录 非 常 类 似 。 





CompositeContext 


允许 为 监控 指标 生成 不 止 一 个 上 下 文 ， 例 如 ， 用 户 可 以 一 次 同时 指 
定 Ganglia 和 文件 上 下 文 。 


NullContext 


监控 指标 框架 的 关闭 选项 ， 使 用 这 种 上 下 文 时 ， 不 生成 也 不 聚合 监 


控 指 标 。 


NullContextwithUpdateThread 








不 生成 任何 监控 指标 ， 但 是 启动 聚合 统计 线程 。 这 种 上 下 文 在 通过 
JMX 检 索 监 控 指 标 时 使 用 ， 详 见 10.4 节 。 


每 个 上 下 文 都 有 唯一 的 名 字 ， 在 外 部 配置 文件 中 注 明 ( 详 见 10.3.1 
节 的 “HBase 相 关 步 又 ”部 分 ) ， 也 被 用 来 定义 各 种 属性 和 实现 
MetricsContext 接口 的 实现 类 。 


一 另 一 个 HBase 继 承 自 Hadoop 监 控 指 标 框架 的 产物 是 
使 用 其 提供 的 ContextFactory 来 装载 各 种 上 下 文 类 。 配 置 
文件 名 在 这 个 类 中 被 便 编 码 为 hadoop- 
metrics.properties ， 这 是 HBase 使 用 和 Hadoop 完 全 一 样 
的 文件 名 ， 而 不 使 用 更 为 直观 的 hbase- 
metrics.properties 的 原因 。 














多 重 监控 指标 使 用 MetricsRecord 分 组 ， 来 描述 一 个 具体 的 子 系 
统 。HBase 使 用 这 些 组 别 来 保存 master、region 服 务 器 或 其 他 服务 占 的 统 
计 信 息 。 每 个 组 都 有 了 唯一 的 名 字 ， 完 整 的 监控 指标 名 称 都 是 由 上 下 文 名 
称 和 实际 监控 指标 名 称 组 合 而 成 的 。 


< context-name>.< record-name>.< metric-name> 


上 下 文 有 和 内置 的 定时 器 来 触发 并 将 监控 指标 推送 至 目标 一 一 可 能 是 
文件 、Ganglia 或 者 用 户 自 己 定制 的 解决 方案 。 上 下 文 配 置 选项 中 的 
period 选项 被 用 来 设 定 上 下 文 更 新 监控 指标 的 时 间 间 隔 。 有 具体 上 下 文 
0 图 10-1 显 示 了 相关 关 的 序列 











Updater MetricsUtil | MetricsContext MetricsBase | MetricsRecord | MetricsRegistry MetricsMBeanBase | JMXClient 


e.g. RegionServerMetrics 


tContext 
(name) 。 startMonitoringi) 


—> 


startTimer{) ee 


4 context: 
MetriesContext 


createRecord 
(context, seach 
createRecord t 


(name) 


create or retum 
existing record 


4 record: 
MetricsRecord 


record: 
MetricsRecord 
reqisterUpdater(this} \ 
EE e.g. RegionServerStatistics 


new(register, name} 
timer Event) MBeanUtiLregisterMBean(...| 
dolpdate(this} PE, 


pushMetric{record) 
RE ER 4 P 
setMetric{name, value) or 


updatet) > incrMetric(name, value) 


4 update(record) 


put or sum updated values 

in local RecordMap 
emitRecords() oo 

push to Ganglia or file 


<? extends MetricsBase> 


SO aes 


Updater MetricsUtil | MetricsContext | MetricsBase | MetricsRecord | MetricsRegistry | MetricsMBeanBase | JMXClient 





图 10-1 准备 监控 指标 涉及 类 的 序列 图 


在 系统 内 部 ， 监 控 指标 是 被 基于 MetricsBase 的 容器 类 追踪 的 ， 
这 些 容 絮 类 包含 各 种 当 消 息 发 生 时 需要 调用 的 更 新 或 者 增加 方法 。 反 过 
来 ， 框 架 跟 踩 每 个 监控 指标 消息 的 数目 ， 并 将 其 与 上 次 跟 踩 到 现在 所 消 
耗 的 时 间 关 联 起 来 。 


下 面 概述 了 Hadoop 和 HBase 监 控 指 标 框架 中 各 种 可 用 的 监控 指标 类 
型 ， 并 给 出 了 相关 缩写 形式 。 这 些 缩写 将 在 本 章 后 续 部 分 被 引用 。 


整 型 值 (IV ) 

跟踪 一 个 整 型 计数 器 ， 仅 仅 当 值 改变 时 此 监控 指标 才 更 新 。 
长 整 型 值 (LV ) 

跟踪 一 个 长 整 型 计数 器 ， 仅 仅 当 值 改 变 时 此 监控 指标 才 更 新 。 
速率 (R) 

一 个 代表 速率 的 浮 点 型 值 ， 可 以 是 每 秒 操作 或 者 消息 数 。 它 提供 一 
个 递增 方法 用 来 追踪 操作 次 数 ， 同 时 提供 一 个 上 次 轮 询 时 间 惟 来 追踪 消 
耗 的 时 间 。 当 监控 指标 被 轮 询 时 ， 将 发 生 以 下 事件 。 

1. 速率 以 操作 数目 / 秒 为 单位 计算 的 消耗 时 间 来 统计 。 

2. 这 个 速率 存储 在 之 前 设 定 的 值 域 中 。 

3. 内 部 计数 堪 重 置 为 零 。 

4. 最 后 一 次 推送 时 间 设 置 为 当前 时 间 。 

5. 计算 的 速率 返回 给 调用 者 。 

FIP CS) 

这 种 上 下 文 类 型 用 来 存储 静态 的 、 基 于 文本 的 信息 ， 并 用 来 报告 
HBase 版 本 信息 和 构建 时 间 等 。 这 个 值 不 会 重 置 或 者 修改 ， 一 旦 赋值 ， 
其 在 进程 运行 时 一 直 保 持原 样 。 

时 间 变 化 整 型 (TVI ) 











上 下 文 会 维护 一 个 单调 递增 累加 计数 器 。 监 控 指 标 拥有 一 个 简单 的 
递增 方法 ， 框 架 使 用 这 个 方法 对 各 种 消息 进行 计数 。 当 这 个 值 被 轮 询 
时 ， 它 将 返回 累计 的 整 型 值 ， 之 后 重 置 为 零 ， 并 等 待 下 次 轮 询 。 

时 间 变 化 长 整 型 (TVL ) 


和 TVI 一 样 ， 只 有 操作 数 是 长 整 型 值 ， 主 要 作用 于 增 速 较 快 的 计数 
ts 





时 间 变 化 率 (TVR ) 

TVR 需要 追踪 操作 数 或 者 消息 的 数量 ， 以 及 完成 操作 所 用 的 时 间 ， 
这 些 监 控 指 标 通常 用 来 计算 一 次 操作 完成 的 平均 时 间 。 同 时 监控 指标 也 
会 显示 每 个 操作 的 最 长 和 最 短 时 间 。 表 10-1 展 示 了 这 4 个 值 在 同一 监控 
指标 下 是 如 何 用 不 同 前 级 命名 的 。 


表 10-1 基于 时 间 变 化 率 的 监控 指标 反映 的 4 个 值 

















Number ere ery es 
Operations NumOps | 上 次 轮 询 至 今 实 际 事件 的 数目 

















Sek — Ye IH 
ee 间 ， 每 次 事件 完成 时 间 的 总 和 除 


注意 操作 数 和 累积 时 间 会 在 数据 轮 询 时 复位 。 操 作 数 是 由 轮 询 上 下 
文 球 加 生成 的 ， 保 持 单 调 递 增 。 与 此 相反 ， 平 均 时 间 是 一 个 相对 值 ， 由 
每 次 轮 询 间隔 检索 的 监控 指标 计算 出 来 。 





每 次 操作 的 最 大 和 最 小 操作 时 间 不 会 复位 ， 直 到 调 
用 resetMinMax() 函数 。 此 操作 可 以 通过 JMX (但 看 10.4 市 ) 或 者 某 些 
扩展 监控 指标 隐 式 触发 来 完成 。 


持续 型 时 间 变 化 率 (PTVR ) 


PTVR 是 TVR 的 扩展 ， 它 添加 了 对 持续 的 周期 性 的 监控 指标 的 必要 
SCRE: 因为 这 些 长 期 运行 的 监控 指标 并 不 是 每 次 轮 询 都 会 复位 ， 因 此 它 
每 次 报告 时 都 需要 特殊 处 理 。 


表 中 简称 那 一 列 是 实际 监控 指标 名 称 的 后 级 。 例 如 ， 当 检 
ZHTable 提供 increment() 操作 的 监控 指标 时 ， 你 会 看 到 4 个 值 ， 
别 是 jncrementNumOps ~ incrementMinTime, ne ine 
和 incrementAvgTime 。 


但 也 不 是 每 个 地 方 都 可 以 获得 这 4 个 值 ， 例 如 ， 基 于 上 下 文 的 监控 
指标 只 提供 AvgTime 和 NumOps 的 值 ， 但 JMX 可 以 访问 这 4 个 值 。 


讨论 HBase 提 供 的 不 同类 型 的 监控 指标 时 ， 用 户 可 能 会 注意 到 引用 
它们 的 类 型 缩写 ， 用 户 自己 撰写 支持 工具 时 ， 可 以 参考 它们 。 同 时 要 记 
住 ， 区 分 通过 监控 指标 上 下 文 还 是 JMX 获 取 数 据 时 ， 不 同类 型 监控 指标 
的 行为 有 区 别 。 


一 些 监控 指标 〈 例 如 ， 时 间 变 化 的 监控 指标 ) 会 在 轮 询 时 复位 ， 但 
是 对 应 的 上 下 文 会 累计 它们 的 值 来 作为 单调 递增 计数 器 。 通 过 JMX 获 取 
值 时 可 以 观察 到 复位 的 形 为 ， 因 为 这 样 可 以 直接 获取 监控 指标 的 值 ， 而 
非 获取 经 上 下 文 处 理 过 的 结果 。 


一 个 明显 的 例子 就 是 TVR 类 监控 指标 中 的 NumOps 。 通 过 监控 指标 
上 下 文 读 取 数 据 时 ， 用 户 会 得 到 一 个 递增 的 值 ， 然 而 JMX 仅 会 提供 自 上 
次 轮 询 之 后 到 现在 的 绝对 数目 。 


其 他 监控 指标 仅 在 上 次 更 新 后 数值 再 次 变化 时 才 生 成 数据 。 用 户 时 
然 应 当 通 过 上 下 文 而 不 是 JMX 来 获取 这 些 监控 指标 的 值 ， 后 者 只 是 简单 
地 获取 上 次 轮 询 后 的 新 值 。 如 末 不 设 定 一 个 轮 询 周 期 ，JMX 取 得 的 值 将 
永 不 改变 。 更 多 细节 请 看 10.4 节 。 图 10-2 显 示 了 在 每 个 监控 指标 周期 ， 
不 同 的 监控 指标 是 如 何 更 新 和 生成 数据 的 。JMX 总 是 读 取 原 始 的 监控 指 
标 数据 ， 这 与 基于 上 下 文 的 聚合 统计 行为 有 显 蔷 差 寞 。 























Metrics (R) Metrics (IV) 
"A" | 3 iia ats 


get(): 2.45 current: 12 
> Previous: 2.45 


e metrics 
Lp [esta ) 
f al MetricsRecord 


Metrics (R) [Absolute]: 

- Calculate Rate 一 Set” Previous” 
- Timestamp — Set “now()” 
-“Previous’ — Push to Record 

- Reset “Current” 


Metrics (IV) [Absolute]: 
-“Current” — Push to Record 
- Reset “Current” 


Metrics (TVI) [Increment]: 
-"Current” — Set “Previous” 
-“Previous” — Push to Record 
- Reset “Current” 


ti 
mee a! 


Merge updated metrics: 
- isAbsolute() 一 Set Value 
- isincrement() 一 Add to Existing Value 


Write Aggregated Values: 

- Hes y 1.48 

- Metrics (IV) “B” —> 67 

- Metrics (TVI)"C" —> '=156 


Current:1 


Current:2 


get(): 561 


get(): 2.45 current: 789 
> Previous: 2.45 


et(): 1.48 : 
; revs: 4g CURT 


get(}: 156 Current: 56 
© Previous: 156 


$ 

get(): 156 pp | Current: 79 = 
Previous: 156 
get(): [156] Current: 178 
> Previous: 156 


Metrics (TVI) 
g b 


Current:561 


See 


ee ee wee eee eee eee eee eee eee eee eee nt 








图 10-2 ”各 种 监控 指标 收集 数据 和 《可 选 ) 复位 的 不 同 之 处 


HBase 也 有 些 开 种 率 监 探 指标 ， 其 更 新 的 跨度 超过 了 一 般 监 控 指 标 
更 新 框 杂 所 使 用 的 更 新 时 间 。 





” HBase 中 有 些 长 期 运行 的 进程 ， 需 要 保证 监控 指标 
一 直 持 续 到 进程 结束 。 这 可 以 通过 hbase.extendedperiod 
属性 来 控制 ， 单 位 是 秒 。 默 认 不 会 结束 超期 ， 但 是 提供 的 配 
置 将 其 设 成 了 3600 秒 ， 即 1 小 时 。 





当前 这 些 周期 性 持续 的 监控 指标 主要 用 于 观察 region 服 务 
器 和 master 对 应 的 合并 、 刷 写 和 拆 分 操作 的 时 间 和 变化 率 。 在 
region 服 务 器 端 ， 这 个 属性 也 会 触发 一 些 速率 监控 指标 的 复 
位 ， 包 括 读 、 写 和 同步 数据 的 延迟 。 





10.2.2 ” master 监控 指标 


master 进 程 导出 的 所 有 监控 指标 都 和 它 在 集群 中 的 角色 有 关 。 因 为 
master 被 设计 成 相当 轻 量 级 的 系统 进程 ， 只 负责 一 些 集群 范围 的 操作 ， 
与 region 服 务 器 相 比 其 提供 的 监控 信息 很 有 限 。 表 10-2 列 举 了 可 用 的 监 
控 指标 。 





K10-2 ”master 提供 的 监控 指标 


监控 指标 


VERN, KMAN i 


























RA ESIN 


split size (PTVR ) 拆 分 预 号 日 志 的 大 小 











10.2.3 ”region 服 务 器 监控 指标 


region 服 务 器 是 管理 实际 数据 读 取 和 号 入 的 部 分 ， 因 此 需要 收集 大 
量 的 监控 指标 信息 。 这 些 监控 指标 包含 了 服务 器 端 整体 架构 中 许多 不 同 
部 分 的 细节 信息 ， 例 如 ， 块 缓存 (block cache) 和 内 存 存储 (in-memory 


store) 。 
本 节 我 们 会 将 监控 指标 进行 分 组 并 讨论 其 功能 ， 而 不 是 简单 地 列举 


所 有 监控 指标 ， 因 为 理解 它们 整体 的 含义 比 了 解 每 个 单独 的 数据 点 更 重 
要 。 而 且 在 每 个 组 内 部 ， 它 们 的 含义 都 非 第 明确 ， 通 常 只 雷 要 很 少 的 注 








释 来 解释 它们 。 
块 绥 存 监控 指标 


块 缓存 用 来 保存 底层 HFile 从 HDFS 读 取 的 存储 块 。 这 样 用 户 能 将 
一 个 块 保存 在 内 存 中 ， 直 到 空间 不 足 时 才 被 清除 出 内 存 。 


count (LV) 监控 指标 反映 了 当前 绥 存 中 保存 的 块 数目 ，size (LV 
) 监控 指标 是 占用 的 Java 推 空间 大 小 ，free (LV) 监控 指标 是 堆 空 间 为 
缓存 保留 的 可 用 空间 ，evicted (LV) 监控 指标 统计 了 当 堆 空间 受 限时 
将 被 移 除 的 块 的 数目 。 


块 缓存 追 踪 缓 存 命中 hit (LV) 和 缓存 失效 miss (LV) 的 数目 ， 以 
及 命中 率 hitratio (LV) ， 其 反映 了 命中 缓存 总 数 与 请 求 缓存 总 数 的 关 
系 。 


最 后 ， 绥 存 命中 数目 与 缓存 命中 率 相 似 ， 仅 仅 是 统计 请 求 使 用 块 组 
的 操作 数目 。 参 考 3.2.2 市 “单行 grt ”中 的 setCacheBlocks() 
Ti es 




















| we IF 
一 一 所 有 读 操作 都 会 尝试 使 用 缓存 ， 不 管用 户 是 否 指定 
过 将 使 用 的 块 保留 在 缓存 中 。 使 用 setcacheBlocks() 仅仅 
影响 块 的 保留 策略 。 





合并 监控 


当 region 服 务 器 需要 执行 异步 的 或 者 手动 调用 的 合并 存储 文件 的 日 
党 管理 任务 时 ， 它 将 会 使 用 不 同 的 监控 指标 来 报告 状态 。compaction 
size (PTVR ) 和 compaction time (PTVR ) 分 别 代表 需要 合并 的 存储 文 
件 总 大 小 《以 字 节 为 单位 ) 和 操作 花费 时 间 。 注 意 ， 只 有 当 合并 操作 完 
成 之 后 ， 这 些 值 才 会 被 报告 ， 因 为 只 有 那 时 才能 确定 这 些 值 。 


compaction queue size (IV ) 用 来 监测 一 个 region 服 务 器 有 多 少 文 
件 当前 正在 排队 等 待 合并 。 


ee 
| we i 
”这 个 值 是 另 一 个 需要 特别 注意 的 参数 。 通 常 这 个 值 
很 小 ， 在 零 到 十 几 之 间 变 化 。 当 用 户 过 到 WO 问题 时 ， 通 常会 
发 现 这 个 数 上 升 很 快 。 请 查看 图 10-5 中 的 示例 。 








用 户 需 要 注意 major 合 并 也 会 导致 这 个 数字 快速 上 升 ， 
为 这 个 操作 会 将 所 有 存储 文件 添加 到 队列 中 。 用 户 在 查看 图 
表 时 需要 考虑 这 种 情况 。 


memstore 监 控 指 标 


更 新 数据 通常 保存 在 region 服 务 右 的 memstore 中 ， 并 且 将 会 通过 之 
后 的 刷 写 写 到 磁 往 上 。memstore 监 控 指标 提供 了 memstore size MB CIV 
) 来 表示 服务 器 上 所 有 memstore 总 共 占 用 的 堆 大 小 ， 即 所 有 在 线 region 


的 memstore 的 总 和 。 








flush queue size (IV) 是 指 将 要 被 刷 写 的 region 的 数目 。flush size 
(PTVR ) 和 flush time (PTVR ) 分 别 表 示 被 刷 写 到 磁盘 上 的 memstore 大 
小 和 本 次 刷 写 所 占用 的 时 间 。 


与 合并 监控 指标 类 似 ， 这 两 个 监控 指标 在 每 次 刷 写 完成 后 进行 更 
新 。 所 以 报告 的 内 容 只 关注 实际 值 ， 而 不 关注 正在 发 生 的 内 容 。 





一 人 与 合并 队列 类 似 ， 在 某 些 情况 下 用 户 可 能 发 现 刷 写 
队列 大 小 显著 地 上 升 了 ， 例 如 ， 当 用 户 的 服务 器 MO 出 现 问题 
时 。 用 户 可 以 通过 监控 这 个 值 来 确定 正常 情况 下 数值 的 范围 
(通常 也 是 个 较 小 的 值 ) ， 同 时 设 定 一 个 合理 阔 值 ， 当 排队 
数 超出 限制 时 触发 一 个 警告 。 





存储 监控 指标 


store files (IV) 监控 指标 显示 了 所 有 存储 文件 的 数目 ， 涉 及 当前 
机 器 管理 的 所 有 region 的 存储 文件 。stores (IV) 显示 了 服务 器 上 所 有 
region 的 存储 文件 的 数 日 。store file index MB (IV) 监控 指标 〈 以 MB 
为 单位 ) 是 所 有 存储 文件 的 块 索 引 和 元 数据 索引 的 总 和 大 小 。 


LO 监控 指标 


region 服 务 器 使 用 3 个 延迟 监控 指标 来 跟踪 IO 性 能 ， 它 们 都 以 军 秘 
AH... fsread latency (TVR) 报告 文件 系统 的 读 延 迟 ， 例 如 ， 从 存储 
文件 中 装载 块 时 的 延 时 。fs write latency (TVR) 和 上 面相 似 ， 这 个 监 
控 指 标 收集 所 有 写 操作 的 数据 ， 人 例如， 包括 写 存储 文件 和 预 写 日 志 。 


fs sync latency (TVR ) 监控 指标 统计 了 预 写 日 志 记 录 同 步 到 文件 系 
统 的 延迟 。 这 个 延 时 监控 指标 可 以 提供 底层 MO 性 能 的 相关 信息 ， 用 户 
应 该 密切 关注 。 


其 他 监控 指标 
除了 以 上 这 些 ，region 服 务 器 还 提供 了 一 些 全 局 计数 器 作为 监控 指 
标 。read request count (LV ) 和 write request count (LV ) 分 别 表示 总 


的 读 操作 (如 get() ) 和 写 操作 〈 如 put() ) 的 数目 ， 这 些 操作 由 当前 
region 服 务 器 汇总 其 所 有 在 线 region 的 信息 得 出 。 











requests (R ) 监控 指标 是 自 上 次 轮 询 之 后 目前 每 秒 的 请 求 
数 。regions (IV ) 监控 指标 是 目前 region 服 务 器 在 线 的 region 数 目 。 


10.2.4 ”RPC 监控 指标 


master 和 region 服 务 器 还 提供 了 RPC 子 系统 的 监控 指标 。 它 会 自动 监 
控 每 次 不 同 客 户 端 和 服务 器 端 之 间 的 操作 ， 其 中 包括 master 和 region Hk 
务 器 提供 的 RPC 操 作 。 


Fa 
nO 
va 


OR 
一 master 和 region 服务 器 使 用 的 是 一 套 共 享 的 RPC 监 控 
系统 ， 即 用 户 可 以 在 不 同 的 服务 器 上 看 到 相同 的 监控 指标 。 

不 同 之 处 在 于 更 新 这 些 监控 指标 时 ， 进 程 调 用 的 RPC 不 同 。 
例如 ， 在 master 端 ， 用 户 不 会 发 现 increment() 的 监控 指标 
被 更 新 ， 这 是 因为 这 些 方法 是 region 服务 器 提供 的 。 另 一 方 
面 ， 你 会 在 master 上 发 现 所 有 管理 操作 调用 的 监控 指标 ， 如 


enableTable 和 compactRegion 。 








因为 这 些 监 控 指 标 直 接 与 客户 端 和 管理 API 相 关 ， 用 户 可 以 通过 相 
应 的 API 调 用 来 推测 它们 的 意思 。 虽 然 命 名 规则 不 完全 一 致 。 一 个 值得 
注意 的 模式 是 ， 与 region 相 关 的 API 操 作 有 额外 的 region 后 级 ， 例 
如 ，HBaseAdmin 提供 的 split() 操作 对 应 splitRegion 监控 指标 。 只 
有 少数 监控 指标 和 API 没 关系 。 表 10-3 列 出 了 一 些 监控 指标 ， 但 是 这 些 
监控 指标 是 由 RPC 系 统 自身 提供 的 。 


表 10-3 RPC 子 系统 提供 的 非 API 监 控 指 标 























监控 指标 


RPC 





Processing 0 0 时 间 ， 统 计 所 有 RPC 调 用 的 时 间 ， 并 取 平 均 


Time 














RPC Queue 因为 RPC 需 要 使 用 排队 系统 ， 可 能 造成 操作 到 达 时 间 和 操作 实际 执 
Time 行 时 间 的 延迟 ， 即 排队 时 间 


pp 

| wW 上 

8" 监控 排队 时 间 很 有 好 处 ， 因 为 它 反映 了 服务 器 的 负 
载 。 用 户 可 以 设置 临界 值 ， 当 这 个 监控 指标 的 值 超过 临界 值 
后 便 会 触发 报警 。 这 是 系统 出 现 问题 的 早期 预警 信号 


剩 下 的 监控 指标 都 来 自 master 和 region 服 务 器 的 RPC API， 包 括 
regionServerStartup() 和 regionServerReport ， 它 们 分 别 在 
er ea Ae Wmaster i SRA, WR RAK 
ASH 调用 o 


10.2.5 JVM 监 控 指 标 

当 用 户 需 要 优化 HBase 部 署 时 ， 调 优 JVM 的 参数 需要 专家 级 的 技 
巧 。 用 户 可 以 在 11.1 节 了 解 相关 信息 ， 人 绍 用 户 可 以 从 监控 指标 
框架 获取 到 的 各 个 服务 器 进程 的 相关 信息 。 每 个 HBase 进 程 部 会 搜集 和 
导出 有 用 的 JVM 相 关 细 节 ， 例 如 ， 各 种 和 服务 器 性 能 相关 的 JVM 内 部 参 
数 ， 这 些 信 息 反 过 来 可 以 用 来 帮助 调 优 HBase 集 群 部 署 。 

提供 的 监控 指标 可 以 分 为 以 下 几 类 。 
内 存 占 用 监控 指标 


用 户 可 以 得 到 正在 使 用 的 内 存 和 保证 可 以 由 JVM 使 用 的 内 存 的 信息 
外 ， 包 括 堆 和 非 堆 内 存 的 使 用 情况 。 前 者 是 由 JVM 按 用 户 行为 管理 内 





ft, 


同时 会 定时 进行 垃圾 回收 。 后 者 是 JVM 为 内 部 需求 占用 的 内 存 。 


垃圾 回收 监控 指标 


JVM 会 按 用 户 行为 管理 堆 内 存 并 运行 垃圾 回收 。gc count 监控 指标 
表示 垃圾 回收 的 次 数 ，gc time 监控 指标 是 上 次 轮 询 至 今 昧 计 的 垃圾 回收 


占用 的 时 间 。 





ry 

| 在 垃圾 回收 过 程 中 ， 某 些 阶 段 会 导致 JVM 和 暂停 ， 这 
些 暂 停 在 某 些 需要 保证 服务 水 平 协议 的 系统 中 非常 难以 处 
理 。 





通常 情况 下 ， 这 种 暂停 只 会 持续 几 坚 秒 ， 但 是 有 时 候 会 
增加 到 数秒 。 当 暂停 达到 分 钟 级 之 后 束 会 产生 许多 问题 ， 有 
可 能 导致 region 服 务 器 持 有 的 ZooKeeper 租 约 过 期 ， 促 使 

master 采 取 相 应 的 规避 动作 。 





用 户 可 以 使 用 此 监控 指标 来 追踪 服务 器 当前 情况 和 垃圾 
回收 的 时 间 。 当 用 户 观 察 到 对 应 监控 指标 的 值 突然 增加 时 整 
必须 调查 原因 。 超 过 zookeeper.session.timeout 配置 时 
间 的 暂停 都 应 当 被 认为 是 系统 错误 。 





线程 监控 指标 


组 监控 指标 反映 了 一 组 和 Java 线 程 相关 的 参数 。 用 户 可 以 观察 到 


许多 与 线程 可 人 的 状态 相关 的 计数 器 ， 包 括 新 建 、 运 行 和 阻塞 等 
系统 事件 监控 指标 


最 后 ， 事 件 监控 组 包含 了 日 志 子 系统 收集 的 各 种 监控 指标 ， 其 被 归 
入 到 了 JVM 的 监控 指标 类 别 中 (因为 没有 更 好 的 地 方 可 以 放置 ) 。 它 提 
供 了 各 种 日 、 的 消息 数目 。 例 如 ，log error 监控 指标 提供 了 HEX 
轮 询 至 今 ， 错 误 级 别 日 志 消 息 的 数目 。 实 际 上 所 有 的 日 志 消 息 数 目 都 显 
示 的 是 上 次 轮 询 至 今 所 累积 的 消息 数 。 


用 户 可 以 使 用 这 些 监 控 指 标 为 自己 的 文 持 系统 提供 数据 ， 文 持 系统 
可 以 绘制 时 间 趋 势 图 或 按 固 定 国 值 触发 警告 。 理 解 这 些 数值 并 熟悉 它们 
通常 的 范围 非常 重要 ， 可 以 帮助 用 户 在 生产 实践 中 合理 利用 它们 。 























10.2.6 _ info 监控 指标 


HBase 进 程 同样 提供 了 一 组 称 作 info 的 监控 指标 。 S 
的 固化 信息 Be 表 10-4 列 举 了 这 此 监控 指标 
及 其 详细 描述 计 轧 。 这 些 监控 指标 只 能 通过 JMX 来 获取 。 


表 10-4 info 监 控 指 标 





监控 指标 














HBase 编 译 日 其 








revision 编译 使 用 的 源码 库 版 本 


源码 库 的 URL 地 址 





HBase 编 译 者 








hdfsDate HDFS 编 译 日 期 


hdfsVersion 当前 使 用 的 HDFS 版 本 





hdfsRevision HDFS 使 用 的 源码 库 版 本 





HDFS 编 译 者 


HDFS 引 用 HBase 使 用 的 hadoop-core-<X.Y-nnnn>.jar 文件 。 这 个 
JAR 文 件 通 常 是 安装 包 中 已 经 提供 的 JAR 文 件 ， 但 是 用 户 可 以 根据 你 的 
安装 情况 定制 一 个 特定 的 JAR 文 件 。 返 回 的 值 如 下 所 示 。 





date:Wed May 18 15:29:52 CEST 2011 

version: @.91.@-SNAPSHOT 

revision: 1100427 
url:https://svn.apache.org/repos/asf/hbase/trunk 


user: larsgeorge 


hdfsDate:Wed Feb 9 22:25:52 PST 2011 
hdfsVersion:@.20-append-r1057313 


hdfsRevision: 1057313 


hdfsUr1l:http://svn.apache.org/repos/asf/hadoop/common/branches/branch-@. 20 
-append 


hdfsUser: Stack 








这 些 值 明 显 不 能 用 图 来 显示 ， 但 是 可 以 被 管理 员 用 来 确认 运行 配置 
是 否 正 确 。 


10.3 Ganglia 


HBase 直 接 从 Hadoop 继 承 了 对 Ganglia © 的 原生 支持 ， 同 时 提供 了 
一 个 可 以 直接 推送 监控 指标 数据 到 Ganglia 的 客户 端 。Ganglia 由 以 下 3 部 
分 组 成 。 


Ganglia 监 控 守 护 进 程 (gmond) 


监控 守护 进程 需要 在 每 侣 需要 监控 的 机 器 上 运行 。 它 搜集 本 地 数 
据 ， 准 备 统计 信息 ， 然 后 被 其 他 系统 拉 取 。 它 积极 地 监控 通过 单一 或 组 
播 网 络 消息 传播 的 主机 变化 情况 。 如 果 使 用 组 播 模式 ， 每 个 监控 守护 进 
程 可 以 获取 集群 完整 状态 ， 所 有 的 服务 器 拥有 同样 的 组 播 地 址 。 


Ganglia 元 数据 守护 进程 〈gmetad ) 


元 数据 守护 进程 安装 在 一 个 中 心 节点 上 ， 作 为 整个 集群 的 管理 节 
点 。 元 数据 守护 进程 从 一 个 或 多 个 监控 守护 进程 拉 取 数据 来 获取 当前 整 
个 集群 的 状态 ， 然 后 使 用 RRDtool © 将 这 些 信息 存放 在 一 个 用 于 轮 询 的 
时 间 序 列 数据 库 中 。 这 些 数据 可 以 被 其 他 客户 端 〈 如 网 页 前 端 ) 以 
XML 格式 获取 。 


Ganglia 也 文 持 数据 报告 守护 进程 的 层次 结构 ， 每 个 层次 树 的 元 信息 
守护 进程 会 合并 它们 的 监控 守护 进程 。 更 高 层次 的 元 信息 守护 进程 再 合 
并 低层 次 元 信息 守护 进程 所 合并 的 统计 信息 ， 以 合并 多 个 集群 的 统计 信 











GangliaPHP 前 端 展示 网 页 

Ganglia 文 持 的 网 页 前 端 从 元 信息 守护 进程 处 获取 合并 的 统计 信息 ， 
然后 以 HTML 的 形式 展现 。 它 使 用 RRDtool 将 时 间 序 列 数据 展示 成 网 
像 。 
10.3.1 ”安装 


Ganglia 的 安装 步骤 分 为 两 步 : 第 一 步 是 安装 配置 Ganglia 本 身 ， 第 
二 步 是 使 HBase 发 送 监控 指标 信息 到 Ganglia。 





1. Ganglia 相 关 步 又 
用 户 应 该 和 尝试 使 用 自身 操作 系统 发 行 版 广 持 的 预 编译 二 进 制 安 装 
包 。 如 果 没 有 ， 可 以 从 网 站 上 下 载 源 代 码 ， 并 在 本 地 构建 安装 。 例 如 ， 
在 基于 Debian 的 系统 中 ， 有 用户 可 以 按照 以 下 步骤 进行 安装 。 
Ganglia 监 控 守 护 进程 。 在 希望 监控 的 所 有 节点 执行 以 下 步骤。 


应 加 用 户 专 用 账号 : 





$ sudo adduser --disabled-login --no-create-home ganglia 





从 网 站 上 下 载 源 代码 包 ， 解 压 到 一 个 公共 位 置 : 





$ wget http://downloads .sourceforge.net/project/ganglia/ 


ganglia%20monitoring%20core/3.0.7%20%28Fossett%29/ganglia-3.0.7. tar.gz 


$ tar -xzvf ganglia-3.0.7.tar.gz -C /opt 


$ rm ganglia-3.0.7.tar.gz 


安装 有 依赖 关系 的 包 : 


$ sudo apt-get -y install build-essential libapri-dev \ 


libconfuse-dev libexpati-dev python-dev 





现在 可 以 构建 并 安装 二 进 制 文件 : 





$ cd /opt/ganglia-3.0.7 


$ ./configure 


$ make 


$ sudo make install 


下 一 步 是 建立 配置 文件 ， 可 通过 如 下 方式 快速 生成 一 个 默认 的 配置 
wi 


$ gmond --default config > /etc/gmond.conf 





按照 如 下 内 容 在 /etc/gmod.conf 文件 中 修改 : 





globals { 
user = ganglia 


} 


cluster { 
name = HBase 


owner = "Foo Company" 


url = "http://foo.com/" 


| 


global 定义 了 之 前 创建 的 用 户 账号 ，cluster 定义 了 集群 的 相关 信 
息 。 默 认 Ganglia 配 置 使 用 组 播 UDP 消 息 ， 且 使 用 IP 地 址 239.2.11.71 来 通 
信 ， 这 适用 于 少 于 120 个 节点 的 集群 。 


组 播 与 单 播 的 对 比 


虽然 默认 的 监控 守护 进程 (gmond) 使 用 UDP 组 播 消 
息 方式 通信 ， 但 是 用 户 可 能 遇 到 一 些 没有 广播 环境 或 者 受 
其 他 因素 限制 的 环境 。 前 者 例如 使 用 基于 亚 马 还 云 服务 器 
的 集群 环境 EC2。 








男 一 个 已 知 因素 是 组 播 通常 只 能 满足 120 个 市 点 以 下 的 
集群 要 求 。 如 果 遇 到 了 这 些 情况 ， 用 户 必须 将 通信 模式 从 
组 播 调整 为 单 播 。 在 /etc/gmond.conf 文件 中 修改 以 下 选项 : 





udp_send channel { 
# mcast join = 239.2.11.71 


host = host®.foo.com 


port = 8649 
# ttl =1 


} 


udp_recv_channel { 
# mcast_join = 239.2.11.71 


port = 8649 
# bind = 239.2.11.71 





这 个 例子 假定 你 在 master 节 点 使 用 gmond 来 接受 其 他 机 
器 上 gmond 进程 的 数据 更 新 。 


host6.foo.com 需要 蔡 换 成 master 的 主机 名 或 者 IP 地 
址 。 在 一 个 更 大 的 集群 中 ， 用 户 可 以 设置 在 每 个 物理 机 器 
上 启动 多 个 gmond 进程 。 通 过 使 用 这 种 方式 ， 用 户 可 以 防 
止 只 有 一 个 gmond 处 理 提 交 的 更 新 。 





同样 你 需要 修改 /etc/gmetad.conf 文件 来 设 定 指 定 节 
点 ， 有 具体 参考 本 章 讨论 单 播 模 式 的 内 容 。 





尼 动 监控 守护 进程 : 


$ sudo gmond 
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OY 通过 连接 本 地 来 测试 守护 进程 : 


$ nc localhost 8649 





这 会 打印 当前 集群 状态 的 原始 XML， 使 用 Kill 命令 可 以 
停止 守护 进程 











Ganglia 元 数据 守护 进程 。 用 户 需 要 在 所 有 元 信息 守护 服务 器 的 市 
点 上 执行 以 下 步骤 ， 用 于 合并 下 游 的 监控 统计 数据 。 在 少 于 100 个 节点 
的 集群 中 ， 通 常 只 需要 一 台 这 样 的 元 信息 服务 器 。 注 意 ， 因 为 服务 器 需 
要 绘制 图 形 ， 所 以 需要 相应 的 处 理性 能 。 


添加 专用 的 用 户 账号 : 


$ sudo adduser --disabled-login --no-create-home ganglia 





下 载 源 代码 ， 解 压 到 公共 的 目录 : 


$ wget http://downloads .sourceforge.net/project/ganglia/ 


gangliax20monitoring%20core/3.0.7%20%28Fossett%29/ganglia-3.0.7.tar.gz 


tar -xzvf ganglia-3.0.7.tar.gz -C /opt 


$ rm ganglia-3.0.7.tar.gz 





安装 依赖 项 : 





$ sudo apt-get -y install build-essential libapri-dev libconfuse-dev \ 


libexpati-dev python-dev librrd2-dev 





现在 用 户 可 以 像 这 样 编译 并 安装 二 进 制 文件 : 


$ cd /opt/ganglia-3.6.7 


$ ./configure --with-gmetad 


$ sudo make install 





注意 ， 额 外 的 - -with-gmetad 参数 是 之 后 安装 必需 的 。 下 一 步 是 
安装 配置 ， 先 复制 默认 的 gmetad.conf 文件 : 


$ cp /opt/ganglia-3.0.7/gmetad/gmetad.conf /etc/gmetad.conf 





修改 /etc/gmetad.conf 文件 : 


setuid username "ganglia" 
data_source "HBase" host6 .foo.com 
gridname "< Your-Grid-Name>" 





data_source 行 必须 包含 一 个 或 多 个 gmond 的 主机 名 或 IP 地 址 。 


Fa 
4 


wW ii 
一 一 当 使 用 单 播 模 式 时 ， 用 户 需要 指定 data_source 为 
实际 的 专用 gmond 服务 器 。 如 果 不 只 一 台 服 务 器 ， 用 户 需要 
将 所 有 服务 器 都 列 出 ， 以 提供 节点 失效 保障 。 





te eee 路 径 ， 这 些 路 径 用 来 将 采集 的 数据 存储 到 轮 询 数据 


$ mkdir -p /var/lib/ganglia/rrds/ 


$ chown -R ganglia:ganglia /var/lib/ganglia/ 





局 动 守 护 进 程 : 


$ gmetad 


需要 使 用 Kill 命令 关闭 守护 进程 . 

GangliaWeb fil ‘ii 。 最 后 一 步 是 安装 Web 前 端 。 通 常 的 场景 是 在 运 
行 gmetad 进程 的 机 器 上 进行 安装 。 同 时 至 少 要 保证 它 能 恋 取 由 gmetad 
创建 的 轮 询 分 时 数据 库 。 


首先 ， 安 装 所 需 的 库 : 








$ sudo apt-get -y install rrdtool apache2 php5-mysql libapache2-mod-php5 p 
hp5-gd 











Ganglia 包 含 必 备 的 PHP 文 件 ， 用 户 可 以 按 如 下 方式 复制 它们 ; 


$ cp -r /opt/ganglia-3.0.7/web /var/www/ganglia 





现在 启动 Apache: 


$ sudo /etc/init.d/apache2 restart 


如 果 用 户 已 经 将 ganglia 子 域名 指定 到 了 运行 gmetad 的 服务 器 ， 
则 用 户 可 以 通过 网 址 http:/ganglia.foo.com/ganglia 来 浏览 网 页 前 端 。 
为 用 户 还 需要 安装 HBase 并 将 其 监控 指标 信息 推送 至 Ganglia， 上 所 以 目前 
用 户 只 会 看 到 以 简单 图 形 显 示 的 关于 服务 器 的 监控 信忠， 推送 HBase 的 
监控 数据 是 接 下 来 将 要 讨论 的 内 容 。 


2. HBase 相 关 步 又 











HBase 和 Ganglia 集 成 的 关键 部 分 是 GangiaContext 类 ， 该 类 会 将 
服务 器 进程 的 监控 指标 信息 发 送 到 Ganglia 监 控 守 护 进程 。 此 外 在 conf/ 
目录 下 有 一 个 名 为 hadoop- metrics. properties 的 文件 ， 需 要 修改 配置 文 
件 来 局 用 上 下 文 。 参 考 以 下 内 容 编辑 配置 文件 : 











# HBase-specific configuration to reset long-running stats 

#(e.g. compactions). If this variable is left out,then the default 
# is no expiration. 

hbase.extendedperiod = 3600 


# Configuration of the "hbase" context for ganglia 
# Pick one: Ganglia 3.@(former)or Ganglia 3.1(latter) 
hbase.class=org.apache.hadoop.metrics.ganglia.GangliaContext 


#hbase.class=org.apache.hadoop.metrics.ganglia.GangliaContext31 
hbase. period=10 


hbase. servers=239.2.11.71:8649 


Jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext 


#jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext31 
jvm. period=10 


jvm. servers=239.2.11.71:8649 


rpc.class=org.apache.hadoop.metrics.ganglia.GangliaContext 


#rpc.class=org.apache.hadoop.metrics.ganglia.GangliaContext31 
rpc.period=10 


rpc.servers=239.2.11.71: 8649 





之 前 提 过 HBase 当 前 版 本 (0.91.X) 只 支持 Ganglia 


3.0.x， 所 以 可 否 让 用 户 在 GangliaContext 和 
GangliaContext 31 中 选择 呢 ? 某 些 HBase 的 发 行 版 本 已 经 
包含 了 对 Ganglia 3.1.x 文 持 的 补丁 。 当 用 户 确 认 上 自己 的 HBase 
版 本 已 经 有 了 相关 支持 (如 CDH3 已 经 支持 了 ) 后 ， 再 使 用 这 
个 对 应 的 上 下 文 。 





当 用 户 使 用 单 播 消息 时 ， 之 前 默认 设置 的 239.2.11.71 组 播 地 址 需要 
被 奉 换 成 指定 gmond 机 器 的 主机 名 或 IP 地 址 。 例 如 : 


hbase.class=org.apache.hadoop.metrics.ganglia.GangliaContext 
hbase.period=16 
hbase.servers=host6.yourcompany .com:8649 


jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext 
jvm. period=10 


jvm. servers=host@.yourcompany.com: 8649 


rpc.class=org.apache.hadoop.metrics.ganglia.GangliaContext 
rpc.period=10 
rpc.servers=host@.yourcompany. com: 8649 








一 旦 用 户 完 成 了 这 个 配置 文件 的 修改 ， 用 户 需 要 重启 HBase 集 群 。 
Ta 再 要 再 做 什么 修改 了 ，Ganglia 会 自动 帮 用 户 获取 所 有 监控 指标 
数据。 





10.3.2 ”用 法 


”一旦 用 户 刷 新 Web 前 端 网 页 ， 就 会 看 到 Ganglia 的 主页 ， 如 图 10-3 所 
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图 10-3 ”Ganglia 提 供 的 基于 Web 前 端的 各 种 监控 图 表 


用 户 可 以 在 页 面 上 更 改 监控 指标 、 时 间 跨 度 和 排序 方式 ， 系 统 会 自 
动 重 载 页 面 内 容 。 在 配置 比较 低 的 机 器 上 ， 用 户 可 能 需要 等 竺 一段 时间 
eee 图 10-4 展 示 了 在 下 拉 框 中 包括 了 所 有 可 用 的 监控 
旨 标 。 


最 后 ， 图 10-5 是 一 个 如 何 使 用 监控 指标 来 查找 问题 根源 的 例子 。 这 
个 图 像 显 示 了 每 天 午夜 一 台 负 载 过 重 的 服务 器 的 垃圾 回收 时 间 突 然 变 
长 ， 这 将 导致 合并 队列 长 度 也 显著 提高 。 


Ganglia 和 它 绘 制 出 的 图 表 是 一 种 非常 有 效 的 、 可 回顾 并 碍 找 问 题 根 
源 的 工具 。 不 过 它 只 能 通过 定量 数据 来 提供 帮助 ， 例 如 ， 当 问题 已 经 友 
生 后 对 集群 问题 进行 分 析 。 接 下 来 我 们 将 对 用 户 展示 如 何 使 用 定量 文 持 
系统 来 补充 一 些 图 表 。 




















| ws IR 
一 一 ”看 起 来 显然 是 写 负载 过 重 导 致 了 LO 扰动 ， 但 当 读 负 
载 很 重 时 ， 系 统 也 会 产生 相似 的 行为 (虽然 不 是 很 频繁 )。 
例如 ， 后 台 运行 的 major 合 并 可 能 累积 很 多 需要 重 写 的 存储 文 
件 。 当 没有 明显 的 来 自 客户 端的 写 负载 时 ， 这 也 会 对 读 操作 
的 响应 时 间 有 不 利 的 影响 。 
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图 10-4 下拉 框 提供 的 各 个 监控 指 书 
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可 以 帮助 用 户 整 理 相关 事件 的 问题 
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图 10-5 图 


10.4 JMX 


Java Management Extensions 技 术 是 Java 应 用 程序 导出 当前 状态 的 标 
准 。 除 了 之 前 已 经 看 到 的 Ganglia 和 监控 指标 上 下 文 提供 的 功能 之 外 ， 
JMX 还 可 以 提供 一 些 操 作 。 这 些 操作 允许 用 户 在 一 个 局 用 了 JMX 的 Java 
进程 上 远程 调用 一 些 功 能 。 


在 通过 JMX 访 问 HBase 进 程 之 前 ， 用 户 必 须 启用 它 。 此 项 工作 可 以 
通过 在 $HBASE_HOME/conf/hbase-env.sh 配置 文件 中 去 掉 和 修改 以 下 行 
注释 来 完成 。 





# Uncomment and adjust to enable JMX exporting 

# See jmxremote.password and jmxremote.access in $JRE_HOME/1ib/management 
to 

# configure remote password access. More details at: 

# http://java.sun.com/javase/6/docs/technotes/guides/management/agent.html 
# 

export HBASE_JMX_BASE="-Dcom.sun.management.jmxremote.ssl=false \ 


-Dcom.sun.management. jmxremote.authenticate=false" 


export HBASE_MASTER_OPTS="$HBASE_JMX_BASE \ 


-Dcom.sun.management. jmxremote.port=10101" 


export HBASE_REGIONSERVER_OPTS="$HBASE_JMX_BASE \ 


-Dcom.sun.management. jmxremote. port=10102" 


export HBASE_THRIFT_OPTS="$HBASE_JMX_BASE \ 


-Dcom.sun.management. jmxremote. port=10103" 


export HBASE_ZOOKEEPER_OPTS="$HBASE_JMX_BASE \ 


-Dcom.sun.management. jmxremote. port=10104" 





这 样 会 在 没有 安全 保证 的 情况 下 局 用 JMX 远 程 连接 文 持 。 假 设 大 多 
数 情况 下 HBase 集 群 在 防火 墙 外 无 法 被 访问 ， 则 没有 必要 进行 安全 验 
证 。 启 用 JMX 的 安全 检查 机 制 会 使 得 安装 过 程 稍微 麻烦 一 些 。 OFA 
需要 重启 HBase 来 激活 这 些 修改 。 


当 服 务 器 启动 时 ， 它 不 仅 会 将 监控 指标 注册 到 相应 的 上 下 文中 ， 而 
且 还 会 将 它们 导出 为 所 谓 的 JMX 属 性 。 上 文 提 到 了 如 果 用 户 想 使 用 JMX 
该 取 监 控 指 标的 值 ， 用 户 至 少 需要 通过 给 period 赋 个 合适 的 值 来 激 
活 NullContextWithUpdateThread 。 例 如 ， 最 基本 的 hadoop- 
metrics.properties 文件 可 能 包含 : 





hbase.class=org.apache.hadoop.metrics.spi.NullContextWithUpdateThread 
hbase. period=60 


jvm.class=org.apache.hadoop.metrics.spi.NullContextWithUpdateThread 
jvm. period=6@ 


rpc.class=org.apache.hadoop.metrics.spi.NullContextWithUpdateThread 
rpc.period=60 





这 将 确保 所 有 的 监控 指标 每 隔 10 秒 更 新 一 次 ， 同 时 用 户 可 以 通过 
JMX 属 性 检索 到 监控 指标 的 值 。 不 做 这 些 将 会 导致 所 有 的 JMX 属 性 没有 





实际 作用 。 然 而 ， 用 户 也 可 以 正常 使 用 JMX 操 作 。 与 此 同时 ， 如 果 用 户 
已 经 启用 了 其 他 上 下 文 ， 如 GangliaContext ， 这 就 足够 了 。 


JMX 使 用 managed beans〈 即 MBeans) 的 概念 ， 用 来 提供 特定 的 属 
性 和 操作 和 集合。 监控 指标 框 染 提 供 的 监控 指标 上 下 文 和 JMX 叶 出 的 
MBeans 有 些 相 同 的 功能 。 这 些 MBeans 用 以 下 的 方式 进行 声明 : 


hadoop:service=< service-name>,name=< mbean-name> 





下 面 的 MBeans 是 由 HBase 的 各 种 进程 提供 的 。 


hadoop:service=Master, name=MasterStatistics 





提供 访问 master 监 控 指 标的 功能 ， 如 10.2.2 市 所 介绍 的 内 容 。 


hadoop:service=RegionServer, name=RegionServerStatistics 





提供 访问 region 监 控 指标 的 功能 ， 如 10.2.3 节 所 介绍 的 内 容 。 


hadoop:service=HBase, name=RPCStatistics-< port> 


pT 


提供 访问 RPC 监 控 指 标的 功能 ， 正 如 10.2.4 节 描述 的 。 注 意 命名 中 
的 端口 部 分 可 能 是 动态 的 ， 在 用 户 修 改 配置 并 指定 master 和 region 服务 
融 绑 定 的 端口 时 ， 这 部 分 内 容 会 随 之 变化 。 


hadoop:service=HBase, name=Info 


提供 访问 第 规 监 控 指 标的 功能 ， 如 10.2.6 节 所 描述 的 内 容 。 





MasterStatistics 、RegionServerStatistics 和 
RPCStatistics 这 些 MBeans 也 提供 了 一 个 操作 : resetAl1MinMax 。 
使 用 这 个 操作 可 以 重 置 已 经 观测 到 的 时 间 变 化 率 〈TVR ) 的 最 小 和 最 大 
完成 时 间 。 


用 户 有 很 多 方式 来 访问 JMX 属 性 和 操作 ， 以 下 介绍 两 种 。 
10.4.1 JConsole 


Java 的 发 行 版 中 有 一 个 名 为 JConsole 的 帮助 工具 ， 它 可 以 用 来 连接 
本 地 或 远程 的 Java 进 程 。 假 设 用 户 在 系统 查找 路 径 中 已 经 包括 了 
$IAVA_HOME 目录 ， 用 户 可 以 使 用 以 下 方式 来 启动 它 : 


一 旦 应 用 打开 ， 它 会 显示 一 个 对 话 框 来 让 用 户 选 择 连接 本 地 还 是 远 
程 的 进程 。 图 10-6 展 示 了 这 个 对 话 框 。 


用 户 可 以 用 它 连 接 本 地 或 者 远程 的 进程 。 因 为 用 户 已 经 配置 了 所 有 
HBase 进 程 监听 特定 的 端口 ， 所 以 推荐 用 户 将 它们 作为 远程 进程 访问 。 
这 样 做 的 好 处 是 ， 即 使 当 进 程 ID 改变 时 ， 用 户 仍 然 可 以 重新 连接 一 个 远 
程 的 服务 器 。 但 如 宋 按 本 地 连接 方式 的 话 ， 用 户 就 不 能 这 样 做 了 ， 因 为 








连接 时 受 限 于 前 面 说 的 进程 ID。 
通过 使 用 JMX 服 务 的 URL 可 以 连接 远程 HBase 进 程 ， 其 格式 如 下 : 


service:jmx:rmi:///jndi/rmi://< server-address>:< port> 





这 里 使 用 Java Naming and Directory Interface (JNDI) 注册 并 查找 相 
应 的 必 备 细节 信息 ， 以 及 指定 连接 访问 端口 。 某 些 情况 下 ， 用 户 可 能 在 
同一 个 物理 服务 器 上 运行 多 个 Java 进 程 ， 例 如 ，Hadoop 的 NameNode 和 
HBase 的 master， 此 时 每 个 服务 进程 都 需要 分 配 一 个 唯一 的 端口 。 碍 
阅 hbase-env.sh 文件 中 设 定 的 各 个 进程 的 端口 。 例 如 ，master 监 听 10101 
端口 ，region 服 务 器 监听 10102 端 口 。 因 为 用 户 只 能 在 一 个 物理 机 器 上 运 
行 一 个 region 服 务 器 ， 所 以 可 以 使 所 有 region 服 务 器 使 用 一 个 相同 的 端 
口 。 这 种 情况 下 可 以 通过 修改 <server-address> 一 ”为 主机 名 或 了 地 
址 一 一 来 构造 一 个 唯一 的 address:port 对 。 


一 旦 连接 到 进程 ， 用 户 会 看 到 一 个 包含 了 它们 各 种 细节 信息 的 多 标 
签 页 窗口 。 图 10-7 显 示 了 连接 进程 之 后 的 初始 屏幕 。 不 断 更 新 的 各 种 图 
表 对 了 解 服务 器 的 当前 状态 来 说 非常 有 用 。 














New Connection 


O Local Process: 
| org.apache.hadoop.mapred. TaskTracker 
| org.jruby.Main /projects/opensource/hbase-trun... 
org.apache zookeeper.server.quorum.QuorumPee... 
| org.apache.hadoop.hdfs.server.datanode.DataNode 
| org.apache.hadoop.hdfs.server.namenode. Secon... 
| org.apache.hadoop.mapred JobTracker 


ww 





®© Remote Process: 


Usage: <hostname>:<port> OR service:jmx: <protocol> :<sap> 


Memory Threads Classes WMSummary MBeans 
Time ange: (at 18} 


Threads 
| Live Greads 
aah shin on 


80 
—_—_—_—_—_——_— 到 一 一 一 一 (一 一 一 一 一 一 一 一 一 
20:48 20:49 20:50 20:51 20:52 20:48 20:49 20:50 20:51 20:52 
Used: 41.4 Mb Committed: 85 Mb Max: 1.0 Gb Live: 71 Peak: 73 Total: 1.229 











-CPU Usage 


—_—— OO p. pg 
20:48 20:49 20:50 20:51 20:52 20:48 20:49 20:50 20:51 20:52 
Loaded: 2,898 Unloaded: 0 Total: 2,898 CPU Usage: 0.1% 





图 10-7 ”JConsole 提 供 了 一 个 运行 时 的 Java 进 程 的 内 部 情况 





图 10-8 是 一 个 MBeans 标 签 页 的 截屏 。 用 户 可 以 观察 已 注册 的 
managed bean 提 供 的 各 种 操作 和 属性 。 在 图 中 用 户 可 以 看 


到 compactionQueueSize 监控 指标 的 内 容 。 
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> Ø java.util. logging 
i 

















图 10-8 ”通过 MBeans 标 签 页 观察 各 种 HBase 进 程 监控 指标 


各 种 选项 及 不 同 标签 页 内 容 的 介绍 可 以 查看 官方 文档 《 
http://dounload.oracle.com/jawase16/docs/technotes/guides/management/jcor 


do 

















10.4.2 JMX 远 程 API 


获取 相同 信息 的 另 一 种 方式 是 JMX Remote API， 它 通过 使 用 远程 
方法 调用 (remote method invocation, RMI) 口 来 实现 。 还 有 很 多 有 用 
的 工具 ， 它 们 也 实现 了 可 以 访问 远程 受 控 Java 进 程 的 客户 端 。 甚 至 
Hadoop 工 程 也 在 致力 于 为 其 添加 一 些 基本 文 持 。 


下 面 我 们 将 使 用 JMXToolkit 工 具 作 为 一 个 例子 ， 源 代码 可 以 从 网 站 


https://github.com/larsgeorge/jmxtoolkit 获取 。 用 户 需 要 配置 git 命令 行 工 
有 具 和 Apache Ant 工 具 。 元 隆 源 代码 库 ， 同 时 编译 构建 工具 : 


$ git clone git://github.com/larsgeorge/jmxtoolkit.git 


Initialized empty Git repository in jmxtoolkit/.git/ 


$ cd jmxtoolkit 


Buildfile: jmxtoolkit/build.xml 
jar: 
[jar] Building jar: /private/tmp/jmxtoolkit/build/hbase-jmxtoolkit.j 


ar 


BUILD SUCCESSFUL 
Total time: 2 seconds 





À oa 用 户 可 以 通过 调用 -h 开关 选项 来 观察 提 
供 的 功能 : 





$ java -cp build/hbase-jmxtoolkit.jar \ 


org.apache.hadoop.hbase. jmxtoolkit.JMXToolkit -h 


Usage: JMXToolkit [-a < action>] [-c < user>] [-p < password>] 
[-u url] [-f < config>] [-o < object>] [-e regexp] 
[-i < extends>] [-q < attr-oper>] [-w < check>] 
[-m < message>] [-x] [-1] [-v] [-h] 


-a < action> Action to perform,can be one of the following 
(default: query) 


create Scan a JMX object for available attributes 
query Query a set of attributes from the given objects 


check Checks a given value to be in a valid range(see -w below 
) 
encode Helps creating the encoded messages(see -m and -w below) 
walk Walk the entire remote object list 
-h Prints this help 





用 户 可 以 使 用 JMXToolkit 来 过 历 或 打印 所 有 可 用 属性 和 操作 集合 。 
用 户 只 需要 知道 希望 获取 的 MBeans 属 性 或 操作 的 完整 名 字 。 不 过 由 于 





目前 还 没有 相应 的 列表 ， 所 以 这 并 不 是 一 项 简单 的 工作 。 建 立 一 个 基本 
人 创建 一 个 如 下 内 容 的 属性 文 








$ vim hbase.properties 


$ cat hbase.properties 


;HBase Master 
[hbaseMasterStatistics ] 

@object=hadoop:name=MasterStatistics, service=Master 

@url=service: jmx:rmi:///jndi/rmi: //${HOSTNAME1 | localhost} :10101/jmxrmi 
@user=${USER | controlRole} 

@password=${ PASSWORD | password} 


[hbaseRPCMaster ] 

@object=hadoop:name=RPCStatistics-60000, service=HBase 

@url=service: jmx:rmi:///jndi/rmi: //${HOSTNAME1 | localhost}:10101/jmxrmi 
@user=${USER | controlRole} 

@password=${ PASSWORD | password} 


;HBase RegionServer 

[hbaseRegionServerStatistics ] 
@object=hadoop:name=RegionServerStatistics, service=RegionServer 
@url=service: jmx:rmi:///jndi/rmi: //${HOSTNAME2 | localhost}:10102/jmxrmi 
@user=${USER | controlRole} 

@password=${ PASSWORD | password} 

[hbaseRPCRegionServer ] 
@object=hadoop:name=RPCStatistics-60020, service=HBase 

@url=service: jmx:rmi:///jndi/rmi: //${HOSTNAME2 | localhost}:10102/jmxrmi 
@user=${USER | controlRole} 

@password=${ PASSWORD | password} 


;HBase Info 

[hbaseInfo | 

@object=hadoop:name=Info, service=HBase 

@url=service: jmx:rmi:///jndi/rmi: //${HOSTNAME1 | localhost} :10101/jmxrmi 
@user=${USER | controlRole} 

@password=${ PASSWORD | password} 


; EOF 





这 个 配置 可 以 被 作为 参数 送 入 工具 中 ， 以 用 来 检索 列 出 的 MBeans 
的 属性 和 操作 。 结 果 被 存放 在 myjmx.properties "F: 





$ java -cp build/hbase-jmxtoolkit.jar \ 


org.apache.hadoop.hbase. jmxtoolkit.JMXToolkit \ 


-f hbase.properties -a create -x > myjmx.properties 


$ cat myjmx.properties 


[hbaseMasterStatistics ] 
@object=hadoop:name=MasterStatistics,service=Master 
@url=service: jmx:rmi:///jndi/rmi://${HOSTNAME1 | localhost} :10101/jmxrmi 
@user=${USER | controlRole} 
@password=${ PASSWORD | password} 
splitTimeNumOps=INTEGER 

splitTimeAvgTime=LONG 

splitTimeMinTime=LONG 

splitTimeMaxTime=LONG 

splitSizeNumOps=INTEGER 

splitSizeAvgTime=LONG 

splitSizeMinTime=LONG 

splitSizeMaxTime=LONG 

cluster_requests=FLOAT 

*resetAl1MinMax=VOID 
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些 命 令 假设 用 户 以 伪 分 布 式 和 本 地 HBase 实 例 方 
es 当 使 用 远程 服务 来 运行 时 ， 用 户 需 要 简单 地 
修改 模板 属性 文件 中 的 变量 。 例 如 ， 在 上 述 命令 中 添加 如 下 


内 容 即 可 指定 一 个 主机 名 《或 者 了 地址 ) 到 相应 的 主 或 从 节 
点 


wo 





-DHOSTNAME1=master.foo.com -DHOSTNAME2=slavel1.foo.com 





当 用 户 查 看 新 创建 的 myjmx.properties 文件 时 ， 会 看 到 所 有 前 文 已 
经 介绍 过 的 监控 指标 。 操 作 都 是 以 * 〈 即 星 号 ) 为 前 级 。 


现在 用 户 可 以 在 命令 行 中 使 用 这 个 工具 和 统计 出 的 属性 文件 来 请 求 
监控 指标 的 值 。 在 下 面 的 例子 中 ， 第 一 个 查询 是 请 求 相关 属性 的 什 ， 第 
二 个 则 触及 了 一 个 操作 《并 这 种 情况 下 没有 返 器 值 〉。 











$ java -cp build/hbase-jmxtoolkit.jar \ 


org.apache.hadoop.hbase. jmxtoolkit.JMXToolkit \ 


-f myjmx.properties -o hbaseRegionServerStatistics -q compactionQueueSi 
ze 


compactionQueueSize:@ 


$ java -cp build/hbase-jmxtoolkit.jar \ 


org.apache.hadoop.hbase. jmxtoolkit.JMXToolkit \ 


-f myjmx.properties -o hbaseRegionServerStatistics -q *resetAl1MinMax 


ee 


创建 完 一 个 这 样 的 属性 文件 后 ， 用 户 可 以 检索 单个 值 或 者 整个 
MBeans 的 值 ， 同 时 也 可 以 触及 一 些 操作 。 这 是 个 很 重要 的 工具 ， 它 可 
以 用 来 快速 扫描 受 管 理 的 进程 并 记录 所 有 可 用 信息 ， 碍 询 JMX MBeans 
可 以 将 用 户 从 主观 腹 断 中 解脱 出 来 。 





JMXToolkit Cacti 


— AJMXToolkit JAROJ Æ J, EMA] LAAE—*SCacti 
服务 器 中 使 用 。 第 一 步 ， 复 制 JAR 包 到 Cacti 的 脚本 目录 
(可 能 安装 时 有 所 差异 ， 用 户 需 要 确认 目录 正确 ) 。 下 一 
步 ， 解 压 脚本 : 


$ cd $CACTI_HOME/scripts 


$ unzip hbase-jmxtoolkit.jar bin 


* 


$ chmod +x bin 





一 旦 脚本 解压 完毕 ， 用 户 可 以 测试 其 基本 功能 : 


$ bin/jmxtkcacti-hbase.sh host6.foo.com hbaseMasterStatistics 


splitTimeNumOps:@ splitTimeAvgTime:@ splitTimeMinTime:-1 splitTimeMaxTime: 
@\ 
splitSizeNumOps:@ splitSizeAvgTime:@ splitSizeMinTime:-1 splitSizeMaxTime: 
o \ 


cluster_requests:0.@ 





JAR 也 包含 一 组 Cacti 模 版 @， 用 户 可 以 将 其 导入 ， 并 
用 来 为 HBase 和 Hadoop 的 JMX MBeans 提 供 的 变量 进行 初步 
的 可 视 化 工作 。 注 意 ， 这 些 模版 使 用 上 述 脚本 并 通过 JMX 
获取 监控 指标 的 值 。 


在 Cacti 中 ， 创 建 图 像 与 Ganglia 相 比 更 复杂 ， 后 者 可 以 
动态 添加 来 自 于 监控 守护 进程 推送 的 监控 指标 。Cacti 拥 有 
一 系列 PHP 脚 本 ， 这 些 脚 本 用 来 批量 将 集群 中 的 服务 器 添 
加 进来 。 


10.5 Nagios 


Nagios — SP YZ AHA. FR RE SSR TTR ASH RY HE EB 
LEFTER. “EE WSS HAY Hes on HFA A EAT EE. — Ei 
WEE, CORT a FUMIE TE, PRAIA ABT. FT TR. Aa 
Rif, BEALS PIE AAAS, BREN ER E E J ERR Ha o 


Nagios 中 的 典型 检测 项 目 可 以 是 其 自身 以 插件 形式 提供 的 ， 也 可 以 
是 用 户 添 加 的 脚本 ， 且 脚本 必须 返回 特定 程序 退出 值 并 将 结果 打印 到 标 
准 输出 。 用 户 可 以 使 用 JMX 将 Nagios 和 HBase 集 成 到 一 起 ， 有 很 多 可 选 
的 方法 ， 其 中 包括 前 文 提 到 过 的 JMXToolkit。 


JMXToolkit 的 优点 在 于 ， 用 户 制作 了 包含 所 有 属性 和 操作 的 属性 文 
件 之 后 ， 就 可 以 添加 Nagios 或 者 其 他 监控 工具 了 ， 但 是 它们 必须 使 用 和 
Nagios 相 同 的 退出 代码 和 标准 输出 消息 。 接 下 来 ， 如 果 用 户 需 要 执行 并 
修改 检测 一 个 不 同 的 值 时 ， 只 需要 编辑 一 下 属性 文件 。 例 如 : 








attributeXYZ=INTEGER | @:0K%3A%20%7BQ%7D | 2 : WARN%3A%20%7B0%7D:80:< | \ 
1: FAILED%3A%20%7BQ%7D :95 :< 
*operationABC=FLOAT|@|2::0.1:>=|1::0.5:> 





使 用 之 前 安装 Cacti 相 同 的 步 又， 用 户 就 可 以 将 Nagios 检 测 项 连接 到 
提供 的 JMXToolkit 脚 本 上 。 如 果 用 户 要 在 属性 文件 中 定义 检测 项 ， 则 仅 
仅 需 要 设 定 查询 的 对 象 、 属 性 或 者 操作 。 如 果 用 户 没 有 上 自 定 义 检测 项 ， 
则 可 以 按照 以 下 方式 设 定 Nagios 中 的 检测 项 : 








$ bin/jmxtknagios-hbase.sh host®.foo.com hbaseRegionServerStatistics \ 


compactionQueueSize "@:0K%3A%20%7BO%7D | 2: WARN%3A%20%7B0%7D:10:>=| \ 


1:FAIL%3A%20%7B0%7D:100: >" 





注意 ，JMXToolkit 也 有 相应 操作 来 将 文本 编码 成 合适 的 格式 。 


显然 ， 使 用 JMXToolkit 只 是 众多 选择 中 的 一 种 。 关键 的 是 ， 可 视 化 
描述 集群 和 监控 集群 对 于 集群 的 维护 是 非常 重要 的 ， 另 一 方面 ， 它 可 以 
帮助 用 户 更 容易 地 追踪 问题 。 推 荐 用 户 在 项 目的 早期 就 部 署 实 现 以 上 两 
项 功能 ， 同 时 还 推荐 用 户 使 用 反映 真实 情况 的 负载 来 测试 系统 ， 因 为 这 
样 做 之 后 用 户 既 熟悉 了 图 形 意义 ， 又 了 解 了 如 何 分 析 它 们 。 它 还 能 帮助 
用 户 设 定 合理 的 阔 值 ， 并 找 出 对 应 的 上 界 和 下 界 ， 这 将 为 用 户 在 随后 的 

生产 环境 中 减少 很 多 麻烦 。 








CD JMX 是 Java Management Extensions 的 首 字 母 缩 写 ， 这 是 一 种 基于 
Java 技 术 ， 目 的 是 方便 用 户 构 建 监 控 和 管理 应 用 的 解决 方案 。 详 细 信息 
参见 项 目 网 站 C 
http://www.oracle.com/technetwork/java/javase/tech/javamanagement- 
140525.htm\) ， 用 户 也 可 以 参考 10.2.5 市 。 


D 参见 线 上 官方 文档 MemoryUsage ( 
http://download.oracle.com/javase/61docs/api/java/lang/management/Memor 


) 来 了 解 使 用 “used” 和 分 配 的 “committed” 内 存 的 含义 。 


© “HBase 开 发 小 组 亲切 地 称 这 种 场景 为 朱丽叶 停顿 一 一 master 〈 罗 密 
BK) 提前 假设 region 服 务 嚣 (朱丽叶 〉 死亡， 而 她 其 实 只 是 在 休眠 ， 并 
因此 采取 了 一 些 激烈 的 行动 《恢复 ) 。 = 她 发 现 出 现 
了 一 个 巨大 的 错误 并 结束 了 自己 的 生命 。 这 种 场景 会 产生 一 部 伟大 的 戏 
剧 ， 但 却 是 一 个 痛苦 的 故障 场景 Te 
http:/www.cloudera.com/blog/2011/02/avoiding-full-gcs-in-hbase-with- 
memstore-local-allocation-buffers-part-1/ ) 。 








© Ganglia 是 一 种 分 布 式 可 扩展 的 适合 大 规模 集群 使 用 的 监控 系统 ， 参 
考 项 目 网 站 〈 http:/ganglia.infol) 可 获取 项 目 历史 和 目标 等 相关 信息 。 


© 参见 RRDtool 项 目 网 站 〈 http:/www.mtrg.org/rrdtool/ ) 来 获取 细节 信 
A 


Jro 





© HBase 监 控 指标 网 页 〈 http://hbase.apache.org/metrics.html ) 有 如 何 
添加 密码 及 访问 证 书 文件 的 介绍 。 


O 参考 官方 文档 中 的 详细 信息 〈 
http://www.oracle.com/technetwork/java/java/Javasetech/Tndex-jsp- 
136424.html ) 。 


参见 HADOOP-4756 ( http://issues.apache.org/jira/browse/HADOOP- 
4756 ) 。 


O 由 于 完成 本 书 时 模板 已 经 有 些 陈旧 了 ， 不 过 还 是 能 与 较 新 的 HBase 版 
本 配合 使 用 。 











第 11 章 ”性 能 优化 


现在 ， 我 们 已 经 了 解 了 如 何 安装 和 使 用 集群 。 为 了 使 HBase 能 够 如 
预期 一 样 运行 ， 还 需要 调整 一 些 配 置 。 这 一 章 将 会 列 出 大 量 的 技巧 来 帮 
助 用 户 优化 集群 和 反复 验证 其 性 能 。 





11.1 垃圾 回收 优化 


用 户 需要 调整 的 一 组 较为 底层 的 region 服 务 器 局 动 参数 是 垃圾 回收 
参数 。 注 意 ， 垃 圾 回收 时 master 通 常 不 会 产生 问题 ， 这 主要 是 由 于 
master 没 有 处 理 任何 过 重 的 负载 并 且 实际 的 数据 服务 并 不 经 过 它 。 这 些 
参数 只 需要 被 添加 到 region 服 务 器 的 启动 参数 中 。 


用 户 可 能 会 问 什 么 要 通过 优化 垃圾 回收 来 使 HBase 有 效率 地 运行 。 
其 主要 原因 是 JRE 在 默认 情况 下 会 按照 一 般 情况 来 估计 用 户 的 程序 在 做 
什么 、 它 们 怎么 创建 对 象 、 如 何 分 配 堆 去 处 理 数据 等 。 这 些 假设 在 多 数 
情况 下 都 是 正确 的 。 此 外 ，JRE 能 够 运用 局 发 式 的 算法 来 根据 运行 的 进 
程 进行 调整 。 甚 至 当局 发 式 的 学 习 调 整 功能 受 限于 具体 实现 时 ，JRE 也 
能 够 更 好 地 处 理 菜 些 特殊 情况 。 


现在 的 底线 是 它 不 能 很 好 地 处 理 region 服 务 器 。 主 要 原因 是 当 region 
服务 器 处 理 特定 的 负载 时 ， 特 别 是 写 入 量 过 大 的 负载 ， 繁 重 的 负载 会 迫 
使 内 存 分 配 策略 无 法 安全 地 只 依赖 JRE 对 程序 行为 的 各 种 假设 : 用 户 需 
要 使 用 JRE 所 提供 的 选项 来 调整 垃圾 回收 策略 以 应 对 这 些 特殊 情况 。 


对 写 入 负载 过 大 的 情况 来 说 ，memstore 在 不 同时 期 创建 并 释放 着 各 
种 不 同 大 小 的 对 象 。 因 为 数据 是 被 存储 在 内 存 绥 冲 区 内 的 ， 它 们 会 被 保 
留 直 到 超过 用 户 配 置 的 最 小 刷 写 大 小 ， 用 户 可 以 在 配置 文件 中 使 
用 hbase.hregion.memstore.flush.size 来 设置 region 的 memstore 刷 


写 大 小 ， 此 外 在 定义 表 时 也 可 以 对 不 同 的 表单 独 指定 表 的 这 个 属性 。 


一 旦 memstore 大 于 这 个 值 ， 数 据 束 会 被 刷 写 到 磁盘 ， 并 创建 一 个 新 
的 存储 文件 。 因 为 写 入 磁盘 的 数据 是 由 客户 端 在 不 同时 间 写 入 的 ， 那 么 
0 
现 孔 洞 。 


数据 会 根据 自身 在 内 存 中 停留 的 时 间 被 保存 在 Java 扒 中 分 代 结 构 的 
不 同位 置 : 被 快速 插入 且 被 刷 写 到 磁盘 的 数据 ， 通 稼 会 被 分 配 到 被 称 为 
年 轻 代 (young generation) 或 新 生 代 (new generation) 的 堆 中 。 这 种 
空间 可 以 被 迅速 地 回收 ， 并 且 对 内 存 管理 没有 影响 。 


男 一 方面 ， 如 果 数 据 在 内 存 中 停留 的 时 间 过 长 ， 例 如 ， 辣 一 个 列 族 















































中 插入 数据 的 速度 较 慢 时 ， 对 应 的 数据 就 很 可 能 被 提升 为 了 老生 代 
(old generation) 或 终生 代 (tenured generation) 。 年 轻 代 和 老生 代 的 
不 同 点 在 于 空间 大 小 : 年 轻 代 占 用 的 空间 在 128 MB 到 512 MB 之 间 ， 而 
老生 代 几 乎 占用 了 所 有 可 以 占用 的 堆 空间 ， 通 常 是 好 儿 GB 的 内 存 。 


x 
一 人 用 户 可 以 通过 向 hbase-env.sh 配置 文件 中 添 

加 HBASE_OPTS 或 者 HBASE_REGIONSERVER_OPT 变量 来 设置 
垃圾 回收 相关 选项 。 后 者 仅仅 影响 region 服 务 器 进程 (例如 ， 
相对 于 master) ， 并 且 也 是 推荐 的 修改 方式 。 





旨 定 新 生 代 的 空间 可 以 通过 以 下 两 种 方式 完成 : 


-XX:MaxNewSize=128m -XX:NewSize=128m 


为 一 种 更 简洁 的 方式 古 将 之 前 的 两 个 代码 合并 成 一 个 简便 的 选项 : 


-Xmn128m 


a a 
一 一 使 用 128 MB 是 一 个 好 的 开端 ， 用 户 可 以 通过 对 JVM 
各 指标 的 进一步 观察 来 确认 年 轻 代 的 大 小 是 否 满足 需求 。 








注意 ， 默 认 值 对 于 多 数 region 服 务 器 面 对 的 负载 来 说 都 太 
小 ， 所 以 它 必须 增 大 。 如 果 不 这 样 做 的 话 ， 用 户 可 能 会 发 现 
服务 器 CPU 的 使 用 量 会 急剧 上 升 ， 因 为 从 年 轻 代 中 收集 对 象 
会 消耗 大 量 的 CPU。 


为 了 重复 使 用 由 于 刷 写 数据 到 磁盘 而 产生 《或 由 其 他 对 象 的 创建 和 
释放 产生 ) 的 堆 孔 洞 ， 新 老生 代 都 需要 由 JRE 来 维护 。 如 果 在 茶 个 时 间 
内 ， 应 用 程序 需要 的 堆 大 小 不 适合 这 些 碎 片 空 间 ， 那 么 JRE 需 要 压缩 堆 
内 存 俯 片 。 这 个 操作 包含 了 其 他 隐 了 式 操 作 ， 例 如 ， 将 长 时 间 存 在 的 对 象 
从 年 轻 代 提 升 并 转移 到 老生 代 。 如 果 这 个 操作 失败 ， 用 户 将 会 在 垃圾 回 
收 日 志 中 看 到 提升 失败 的 信息 。 


a lke 
te i 
一 人 强烈 建议 在 JRE 日 志 中 输出 垃圾 回收 的 详细 信息 。 
用 户 可 以 通过 添加 以 下 JRE 选 项 来 达到 目的 : 














-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps \ 


-Xloggc: $HBASE_HOME/logs/gc-$(hostname) -hbase. log" 





一 旦 启用 此 日 志 选 项 ， 用 户 将 会 监测 到 伴随 着 长 时 间 停 
iH "concurrent mode failure" 或 者 "promotion 
failed" 信息 。 





请 注意 ， 该 日 志文 件 不 会 像 其 他 日 志 一 样 按 日 期 定时 滚 








动 存放 到 不 同文 件 中 ， 用 户 需 要 上 自己 手动 管理 (例如 ， 使 用 
基于 cron 的 每 日 滚动 转 存 任务 ) 。 





以 上 讨论 的 重 写 并 整理 堆 中 不 同 代 的 过 程 被 称 之 为 垃圾 回收 ， 并 
以 通过 不 同 的 JRE 参 数 来 指定 不 同 的 垃圾 回收 实现 策略 ， 推 荐 
JEE: 


-XX:+UseParNewGC and -XX:+UseConcMarkSweepGC 


第 一 个 选项 是 设置 年 轻 代 使 用 Parallel New Collector 垃 圾 回收 策略 ; 
这 将 停止 运行 Java 进 程 而 去 清空 年 轻 代 堆 。 与 老生 代 相 比 ， 新 生 代 很 
小 ， 所 以 这 个 过 程 花 费时 间 很 短 ， 通 稼 只 需要 几 百 坚 秒 时 间 。 


以 上 回收 策略 对 于 较 小 的 年 轻 代 来 说 是 可 以 接受 的 ， 但 是 并 不 适合 
老生 代 : 在 最 差 的 情况 下 ， 以 上 回收 策略 会 造成 数秒 钟 其 至 几 分 钟 的 进 
程 停顿 。 一 旦 停顿 时 间 达 到 了 ZooKeeper 会 话 超时 限制 ， 这 个 服务 器 将 
被 master 认 为 已 经 有 骨 尝 并 且 随 后 会 被 抛弃 。 一 旦 region 服 务 器 从 垃圾 回 
收 和 暂停 中 恢复 之 后 ， 它 会 获知 自己 已 经 被 抛弃 ， 然 后 它 会 自行 关闭 。 


这 种 情况 可 以 通过 使 用 并 行 标记 回收 器 (Concurrent Mark-Sweep 
Collector, CMS) 来 缓解 ， 这 种 回收 策略 通过 上 述 例子 中 后 面 的 选项 局 
用 。 不 同 之 处 在 于 其 工作 时 试图 在 不 停止 运行 Java 进 程 的 情况 下 尺 可 能 
异步 并 行 地 完成 工作 。 这 种 策略 将 增加 CPU 的 负载 ， 但 是 却 可 以 避免 重 
写 老 生 代 扒 碎 户 时 的 停顿 一 一 除非 发 生 提 升 失 败 ， 这 种 错误 会 迫使 垃圾 
回收 暂停 运行 JAVA 进程 并 进行 内 存 整理 。 


CMS 有 一 个 额外 的 开关 选项 ， 这 个 选项 控制 着 将 在 什么 时 候 开 始 并 
发 标记 和 清扫 检查 。 这 个 值 可 以 通过 以 下 选项 来 设置 : 


-XX:CMSInitiatingOccupancyFraction=70 


























这 个 值 是 一 个 百分比 ， 并 指定 后 台 线 程 何 时 局 用 ， 用 户 需 要 设 定 这 
个 值 以 防止 妨 一 种 情况 发 生 ， 即 并 发 模式 失败 。 当 后 台 进 程 为 回收 空间 
而 标记 和 清理 扒 内 存 时 ， 可 能 会 发 生 堆 空间 不 足 〈 如 回收 碎片 时 ) 。 在 
这 种 情况 下 ，JRE 必 须 暂 停 运行 Java 进 程 并 且 通 过 释放 对 象 来 强制 释放 
空间 ， 或 者 将 停留 时 间 较 长 的 对 象 转移 到 老生 代 。 


将 初始 占用 百分比 设置 为 70% 意 味 着 其 比 region 服 务 器 设置 的 60% 
的 堆 占用 率 要 大 一 点 ，60% 的 堆 占 用 率 由 默认 的 20% 块 缓存 和 40% 的 
memstore 组 成 。 这 样 的 配置 允许 在 堆 空间 被 占用 完 之 前 束 开 始 并 行 垃 圾 
Es 
少 人 运行 。 


把 上 面 的 设置 放 在 一 起 ， 用 户 可 以 使 用 下 列 内 容 作 为 最 开始 的 配 














export HBASE REGIONSERVER OPTS="-Xmx8g -Xms8g -Xmn128m -XX:+UseParNewGC \ 
-XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=76 -verbose:g 
CoN 
-XX:+PrintGCDetails -XX:+PrintGCTimeStamps \ 


-Xloggc: $HBASE_HOME/logs/gc-$(hostname) -hbase. log" 








一 注意 ， 在 真实 的 硬件 环境 下 ， 不 推荐 使 用 - 
XX:+CMSIncrementalMode 参数 。 


这 些 设 置 结合 了 编写 本 书 时 最 好 的 实践 经 验 。 如 果 用 户 使 用 的 是 比 
Java 6 更 新 的 版 本 ， 应 当 评 佑 一 下 新 垃圾 回收 机 制 的 实现 ， 并 选择 一 个 
合适 的 配置 。 


调整 年 轻 代 空 间 的 大 小 是 十 分 重要 的 ， 这 样 生存 期 较 长 的 对 象 不 会 





过 快 地 引起 老生 代 产 生 内 存 雁 片 。 从 另 一 方面 来 讲 ， 年 轻 代 空间 也 不 能 
太 大 ， 否 则 回收 时 会 引起 太 长 的 停顿 。 虽 然 这 些 停顿 不 会 使 region 服 务 
融 超 时 ， 但 停止 几 百 曼 秒 会 影响 服务 器 啊 应 延 时 。 





同样 ， 当 优化 块 缓存 和 memstore 大 小 时 ， 用 户 应 确保 将 占用 百分比 
的 初始 值 设 置 得 稍 大 一 些 。 同 时 ， 用 户 必须 合理 地 指定 这 两 个 值 ， 它 们 
的 和 肯定 不 能 大 于 100%。 用 户 还 需要 考虑 管理 一 般 Java 类 的 开销 等 。 按 
默认 情况 ， 两 个 默认 值 和 为 60% 是 比较 合理 的 。 更 多 的 信息 请 参考 11.8 
Ta 





11.2 ”本 地 memstore 分 配 缓冲 区 


HBase 的 0.90.x 版 本 引入 了 一 种 高 级 机 制 来 缓解 region 服 务 器 内 存 俯 
片 问 题 ， 这 个 问题 主要 是 memstore 的 扰动 造成 的 〈 不 断 创建 和 释放 内 存 
空间 ) : 本 地 memstore 分 配 绥 冲 区 (Memstore-Local Allocation 
Buffers, MSLAB) 。 


前 面 的 章节 解释 了 生存 期 长 的 KeyValue 实例 一 旦 刷 写 到 磁盘 ， 就 
会 在 老生 代 的 堆 上 产生 和 孔洞。 申请 新 空间 时 ， 由 于 雁 卢 过 多 导致 没有 足 
够 大 的 连续 空间 分 配 ，JRE 会 退回 到 使 用 应 用 程序 停止 Cstop-the- 
ee HR IWC a, ORR SS FMRE S EAEE Te] SF a a ell a H 
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减少 这 些 压缩 回收 的 关键 是 减少 碎片 ，MSLAB 就 是 为 此 设计 的 。 
其 关键 在 于 只 允许 从 堆 中 分 配 相 同 大 小 的 对 象 。 一 旦 这 些 对 象 分 配 并 且 
最 终 被 回收 ， 它 们 将 在 堆 中 留 下 固定 大 小 的 孔洞 。 之 后 调用 相同 大 小 的 
新 对 象 将 会 重新 使 用 这 些 孔 洞 : 这 样 就 不 会 产生 提升 错误 (promotion 
error) ， 因 此 了 束 不 需要 应 用 程序 停止 压缩 回收 了 。 


MSLAB 是 许多 大 小 固定 的 缓冲 区 ， 用 来 存储 大 小 不 同 的 KeyValue 
实例 。 当 一 个 缓冲 区 不 能 放下 一 个 新 加 入 的 KeyValue 时 ， 系 统 就 认为 
这 个 缓冲 区 已 经 被 占 满 了 ， 然 后 创建 一 个 新 的 固定 大 小 的 缓冲 区 。 


这 个 特性 默认 是 在 0.92 版 中 被 局 用 的 ， 而 在 0.90 版 中 没有 被 局 用 。 
用 户 也 可 以 通过 hbase.hregion.memstore.mslab.enabled 配置 属性 
来 复 阁 这 个 属性 。 用 户 在 使 用 新 特性 时 需要 充分 测试 以 避免 发 生 问 题 ， 
使 用 MSLAB 会 推迟 垃圾 回收 停顿 的 发 生 ， 这 样 会 有 很 多 好 处 ， 不 过 用 
户 仍 然 雷 要 处 理 长 时 间 的 垃圾 回收 集 顿 。 如 有 果 用 户 仍 然 在 经 历 这 些 停 
顿 ， 那 么 用 户 可 以 考虑 以 几 天 或 几 周 的 频率 在 停顿 发 生前 重 司 服务 。 
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”因为 这 个 新 特性 还 没有 在 生产 环境 中 长 时 间 运 行 以 

















测试 其 功能 ， 建 议 使 用 时 仔细 观察 服务 器 的 行为 。 


每 一 个 被 分 配 的 、 固 定 大 小 的 缓冲 区 的 大 小 都 是 
由 hbase.hregion.memstore.mslab.chunksize 属性 控制 的 。 默 认 值 
是 2 MB， 并 且 这 是 一 个 合理 的 开始 值 。 根 据 KeyValue 实例 的 大 小 ， 用 
户 可 能 需要 调整 这 个 值 : 如 果 用 户 需 要 储存 更 大 的 单元 格 ， 例 如 ， 其 大 
小 为 100 KB， 那 么 就 需要 增加 MSLAB 的 大 小 以 容纳 更 多 的 单元 格 。 


同样 也 有 一 个 存储 缓冲 区 的 上 边界 。 这 个 是 通过 
hbase.hregion.memstore.mslab.max.allocation 属性 来 设置 的 ， 
并 且 其 默认 值 是 256 KKB。 任何 大 于 这 个 值 的 单元 格 将 会 直接 在 Java 堆 中 
申请 空间 。 如 果 用 户 存 储 了 许多 大 于 上 限 的 KeyValue 实例 ， 用 户 将 会 
更 早 直 到 与 堆 内 存 雄 片 相关 的 停顿 。 


使 用 MSLAB 是 有 代价 的 : 它们 将 更 加 浪费 堆 空 间 ， 因 为 用 户 不 太 
可 能 把 缓冲 区 都 用 到 最 后 一 个 字 节 ， 剩 余 的 没有 使 用 的 空间 则 将 被 浪 
上 平衡 。 


最 后 ， 因 为 使 用 缓冲 区 需要 额外 的 内 存 复制 工作 ， 所 以 使 用 缓冲 区 
比 直 接 使 用 KeyValue 实例 要 稍 慢 一 点 。 用 户 需 要 衡量 这 些 工 作 负 载 是 
人 否 会 产生 负面 影响 。 





11.3 ”压缩 


HBase 支 持 大 量 的 压缩 算法 ， 并 且 可 以 支持 列 族 级 别 上 的 数据 压 
缩 。 除 非 有 特殊 原因 ， 例 如 ， 使 用 已 经 压缩 过 的 内 容 如 JPEG 图 像 ， 否 
则 我 们 还 是 推荐 开局 压缩 。 对 于 其 他 的 使 用 场景 来 说 ， 压 缩 通 常 都 会 带 
来 较 好 的 性 能 ， 因 为 CPU 压缩 和 解压 消耗 的 时 间 比 从 磁盘 中 读 取 和 写 入 
更 多 数据 消耗 的 时 间 更 短 。 


11.3.1 可 用 的 编 解 码 器 
用 户 可 以 从 固定 支持 的 压缩 算法 列表 中 选取 一 个 算法 。 它 们 有 不 同 


的 压缩 质量 和 需求 ， 选 择 时 通常 需要 考虑 它们 的 压缩 率 、CPU 消 耗 和 其 
他 安装 需求 。 


ESR 
一 人 目前 HBase 并 没有 提供 嵌入 式 的 压缩 算法 。HBase 提 
供 的 要 么 是 Java 本 身 的 一 部 分 ， 要 么 是 操作 系统 级 别 的 第 三 
方 类 库 。 它 们 需要 的 支持 库 需要 用 户 提前 编译 构建 ， 不 过 有 
些 算法 已 经 集成 在 HBase 中 。 











在 比较 压缩 算法 之 前 ， 用 户 可 以 参照 表 11-1 或 者 查看 Google 在 2005 年 发 
布 的 压缩 算法 比较 信息 。 包 虽然 该 数据 的 时 间 比 较 久 远 ， 但 是 它们 仍 
然 能 够 展现 每 种 压缩 算法 的 特点 。 


表 11-1 压缩 算法 比较 














GZIP 13.4% 21 MB/s 118 MB/s 


20.5% 135 MB/s 410 MB/s 





Zippy/Snappy 22.2% 172 MB/s 409 MB/s 


有 一 些 算法 拥有 更 好 的 压缩 率 ， 而 为 一 些 算 法 拥有 更 快 的 编 
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码 速 度 和 非常 快 的 解码 速度 。 用 户 最 好 根据 实际 情况 选择 一 个 最 适合 的 
压缩 算法 。 
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一 一 * 在 2011 年 Snappy 可 用 之 前 ， 虽 然 LZO 没 有 最 好 的 压 
缩 率 ， 但 它 仍 是 被 推荐 的 算法 。GZIP 在 压缩 率 上 有 优势 ， 但 
它 也 是 CPU 密集 型 算法 ， 其 微弱 的 节省 存储 空间 上 的 优势 通 
常 是 无 法 弥补 速度 较 慢 和 CPU 使 用 率 过 高 的 劣势 ， 所 以 不 扒 
荐 使 用 GZIP。 
Snappy 拥 有 和 LZO 一 样 的 质量 ， 并 有 兼容 的 使 用 许可 ， 

而 且 在 第 一 次 测试 时 就 表明 在 使 用 Hadoop 和 HBase 时 ， 使 用 
Snappy 比 使 用 LZO 性 能 稍 好 。 因 此 ， 根 据 以 上 描述 ， 用 户 应 
该 更 多 考虑 使 用 Snappy 而 非 LZO。 








1. Snappy 

用 户 可 以 通过 Google 以 BSD 许 可 协议 发 布 的 Snappy 来 使 用 BigTable 
所 用 的 压 绚 算 法 ( 称 为 Zippy，〉。 SRR APRA, EERE AA 
速度 以 及 达到 合理 压缩 率 两 方面 均 进 行 了 优化 。 


Snappy 的 代码 是 用 C++ 编 写 的 ，HBase 的 0.92 版 本 包括 了 所 需 使 用 





的 JNI 库 。 用 户 首先 需要 通过 使 用 包 管 理 软件 ， 如 apt\ rpm 和 yum， 或 者 
直接 从 源 代码 构建 它们 ， 然 后 安装 它们 的 本 地 可 执行 二 进 制 文件 ， 这 样 
它们 就 能 够 被 JNI 库 发 现 并 调用 了 。 


当 用 户 设 置 好 Snappy 的 支持 后 ， 用 户 必 须 安装 Snappy 本 地 二 进 制 库 
到 所 有 的 region 服 务 器 上 ， 只 有 这 样 它 们 才能 被 库 正常 使 用 。 


2. LZO 


Lempel-Ziv-Oberhumer〈 简 称 LZO) 是 一 个 无 损 压 缩 算法 ， 其 专注 
于 解压 速度 ， 并 且 使 用 ANSI C 编 写 。 和 Snappy 相 似 ， 它 也 需要 JNI 库 才 
能 使 HBase 能 够 调用 它 。 


不 幸 的 是 ， 由 于 LZO 的 许可 问题 ，HBase 不 能 将 所 需 的 JNI 库 集成 到 
安装 包 : HBase 使 用 的 是 Apache 许 可 证 ， 而 LZO 使 用 的 是 不 兼容 的 GNU 
General Public (GPL) 许可 。 这 就 意味 着 ，LZO 安 装 需 要 在 HBase 安 装 
后 单独 进行 安装 @ 。 


3. GZIP 


一 般 来 说 ，GZIP 压 缩 算 法 的 压缩 比 会 比 Snappy 或 者 LZO 高 ， 但 是 速 
度 较 慢 。 虽 然 这 看 起 来 像 缺 点 ， 但 它 能 减少 存储 空间 的 开销 。 


这 个 性 能 问题 可 以 通过 使 用 本 地 操作 系统 GZIP 库 的 方式 得 到 组 
解 。HBase 使 用 的 压缩 库 《〈 由 Hadoop 提 供 ) 会 自动 检查 是 否 有 本 地 库 可 
用 。 如 果 没 有 本 地 库 可 用 @ ， 用 户 将 会 在 日 志文 件 中 看 见 ，"Got 
brand-new compressor "。 它 们 表明 载 入 本 地 版 本 失败 ， 并 返回 默认 
的 Java 实 现代 码 来 蔡 代 。 压 缩 仍 然 会 运行 但 是 速度 会 稍微 变 慢 。 


另外 的 劣势 是 GZIP 需 要 消耗 大 量 的 CPU 资源 。 这 将 会 加 重 服务 器 的 
负载 ， 同 时 这 种 负载 应 当 被 监控 以 免 出 现 问题 。 


























11.3.2 ”验证 安装 


一 旦 安装 了 一 种 HBase 文 持 的 压缩 算法 ， 强 烈 建议 用 户 检查 一 下 安 
装 是 否 成 功 。 在 HBase 中 有 好 儿 种 机 制 能 够 验证 压缩 算法 是 否 正常 。 


1. 压缩 测试 工具 





HBase 包 含 一 个 能 够 测试 压缩 设置 是 否 正 常 的 工具 。 用 户 可 以 通过 
输入 ./bin/hbase 
org.apache.hadoop.hbase.util.CompressionTest 来 使 用 它 。 这 
样 会 显示 如 何 使 用 工具 的 说 明 : 


$ ./bin/hbase org.apache.hadoop.hbase.util.CompressionTest 


Usage: CompressionTest < path> none|gz|1zo|snappy 


For example: 
hbase class org.apache.hadoop.hbase.util.CompressionTest file:///tmp/ te 
stfile gz 





HP ri Be ta EM SCPE, AR RSS H TY Hs hs GA, EMA 
这 个 文件 。 例 如 ， 用 户 想 在 HDFS 中 使 用 测试 文件 检查 GZIP 是 否 安装 可 
以 运行 : 





$./bin/hbase org.apache.hadoop.hbase.util.CompressionTest \ 


/user/larsgeorge/test.gz gz 


11/07/01 20:27:43 WARN util.NativeCodeLoader: Unable to load native-hadoop 
\ 
library for your platform... using builtin-Java classes where applicable 
11/07/01 20:27:43 INFO compress.CodecPool: Got brand-new compressor 
11/07/01 20:27:43 INFO compress.CodecPool: Got brand-new compressor 
SUCCESS 





工具 报告 成 功 之 后 ， 用 户 可 以 在 定义 列 族 时 使 用 这 种 压缩 算法 。 注 


意 运行 这 条 命令 时 ， 如 果 打 印 "Got brand-new compressor "信息 ， 
则 意味 着 本 地 GZIP 库 没有 被 服务 器 找到 ， 但 是 它 可 以 使 用 Java 自 带 的 
GZIP 相 关 代 码 进行 解压 缩 。 


对 一 种 没有 安装 好 的 压缩 类 型 尝试 使 用 同样 的 操作 将 会 得 到 一 个 姑 
常 : 


$./bin/hbase org.apache.hadoop.hbase.util.CompressionTest \ 


file:///tmp/test.1zo 1zo 


Exception in thread "main" Java.lang.RuntimeException: \ 

Java. lang.ClassNotFoundException: com.hadoop.compression.1z0.LzoCodec 
at org.apache.hadoop.hbase.io.hfile.Compression$Algorithm$1.getCodec) 
at org.apache.hadoop.hbase.io.hfile.Compression$Algorithm. getCompresso 
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2， 启 动 检查 


即使 压缩 测试 工具 报告 成 功 了 ， 并 且 确 认 了 压缩 库 已 正确 安装 ， 用 
户 仍 旧 可 能 在 接 下 来 的 使 用 中 过 到 问题 ， 由 于 JNI 需 要 首先 安装 好 本 地 
库 ， 如 果 缺 失 这 一 步 ， 将 会 在 添加 新 服务 占 时 出 现 问 题 ， 导 致 新 的 服务 
器 使 用 本 地 库 打 开 含 有 压缩 列 族 的 region 失 败 〈 参 见 12.5.3 节 中 “基本 安 
FRAR HAR) o 


这 个 问题 可 以 通过 在 〈 默 认 未 设 
定 ) hbase.regionserver.codecs 属性 中 设 定 所 有 需要 的 JNI 库 来 组 
解 。 如 果 其 中 一 个 本 地 库 没 有 被 找到 ， 则 整个 region 服 务 器 将 无 法 启 
动 。 这 样 系统 会 在 启动 过 程 中 产生 异常 ， 以 帮助 用 户 快速 发 现 这 个 问 





题 ， 而 不 用 面 对 局 动 之 后 的 各 种 问题 。 


例如 ， 通 过 以 下 配置 ， 在 region 服 务 器 启动 的 时 候 将 会 检查 Snappy 
和 LZO 压 缩 库 是 否 已 经 正确 安装 ; 


<  property> 
< name>hbase.regionserver.codecs< /name> 
< value>snappy,1zo< /value> 


< /property> 





如 果 在 一 些 情况 下 载 入 JNI 库 失败 ， 服 务 器 将 会 终止 启动 并 出 现 一 
个 IO 异常 信息 "Compression codec <codec-name> not 
supported, aborting RS construction"。 用 户 可 以 修复 这 些 问 
题 ， 并 尝试 再 次 启动 region 服 务 器 守护 进程 。 


用 户 可 以 在 每 一 个 HBase 文 持 的 压缩 算法 上 完成 这 个 测试 ， 并 且 别 
迄 了 将 修改 过 的 配置 文件 复制 到 所 有 的 region 服 务 右 上 并 重 局 它们 。 


11.3.3 ”启用 压缩 

启用 压缩 需要 安装 相应 的 JNI 和 本 地 压缩 库 〈 除 非 用 户 只 想 使 用 基 
于 Java 代 码 的 GZIP 压 缩 )》， 束 像 前 面 描 述 的 ， 在 定义 列 族 时 ， 用 户 可 以 
站 定 一 个 压缩 算法 。 


用 户 在 创建 表 的 时 候 可 以 进行 这 些 操作 ， 可 用 的 值 在 5.1.3 节 中 有 介 





绍 。 





hbase(main):001:@> create 'testtable',{ NAME => 'colfam1' ,COMPRESSION => ' 
GZ' } 


© row(s) in 1.1920 seconds 


hbase(main):@12:@> describe 'testtable' 


DESCRIPTION ENABLED 
{NAME => 'testtable',FAMILIES => [{NAME => 'colfam1', true 
BLOOMFILTER => 'NONE',REPLICATION SCOPE => '@',VERSIONS 

=> '3',COMPRESSION => 'GZ',TTL => '2147483647' ,BLOCKSIZE 

=> '65536',IN MEMORY => 'false',BLOCKCACHE => ‘true'}]} 

1 row(s) in 0.0400 seconds 





describe 命令 用 于 读 取 用 户 新 创建 表 的 模式 (schema) 。 用 户 可 以 
看 到 ， 压 缩 方 式 被 设置 为 GZIP 〈 要 求 使 用 GZ 简称 ) 。 另 外 一 种 方式 是 





通过 alter 命令 对 现 有 表 进 行 启用 、 更 改 或 禁用 压缩 算法 。 





hbase(main):013:@>create 'testtable2', 'colfam1' 


© row(s) in 1.1920 seconds 


hbase(main):014:@>disable 'testtable2' 


© row(s) in 2.0650 seconds 


hbase(main):016:@>alter 'testtable2',{ NAME => 'colfam1',COMPRESSION => 'G 
z' } 


© row(s) in 0.2190 seconds 


hbase(main):@17:@>enable 'testtable2' 


© row(s) in 2.0410 seconds 
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注意 ， 用 户 需 要 先 禁 用 表 。 对 于 修改 表 操 作 来 说 ， 必 须 首 先 禁用 
表 。 最 后 ，enable 命令 会 使 表 重 新 启用 上 线 。 


将 压缩 格式 更 改 为 NONE 会 使 给 定 的 列 族 茶 用 压缩 。 








操作 延迟 


注意 ， 即 使 用 户 进行 了 启用 、 禁 用 或 改变 压缩 算法 的 
操作 ， 这 些 操作 并 不 会 并 年 见 影 。 所 有 的 存储 文件 实际 都 
仍旧 使 用 以 前 的 压缩 算法 ， 或 者 没有 使 用 压缩 算法 。 而 更 
改 后 的 region 会 在 刷 写 存储 文件 时 使 用 新 的 压缩 格式 。 


如 果 用 户 想 强制 将 所 有 现成 的 文件 都 使 用 新 设置 的 格 
式 重 写 ， 那 么 可 以 在 Shell 中 使 用 
major_compact‘<tablename>’ : 命令 让 major 合 并 进程 在 后 台 
运行 。 这 将 会 重 写 所 有 的 文件 ， 并 使 用 新 的 设置 。 记 住 ， 
这 可 能 会 使 资源 十 分 紧张 ， 请 用 户 在 确定 可 用 的 资源 充足 
时 再 强制 执行 。 同 时 也 要 注意 ，major 合并 将 会 运行 一 段 时 
间 ， 这 个 是 由 存储 文件 的 数量 和 大 小 来 决定 的 ， 请 耐心 等 
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11.4 优化 拆 分 和 合并 


HBase 内 置 的 处 理 拆 分 和 合并 的 机 制 一 般 是 合理 的 ， 并 且 它 们 按照 
预期 处 理 任务 ， 但 在 有 些 情况 下 ， 还 是 需要 按照 应 用 需求 对 这 部 分 功能 
进行 优化 以 获得 额外 的 性 能 改善 。 


11.4.1 管理 拆 分 


通常 HBase 是 自动 处 理 region 拆 分 的 : 一 旦 它们 达到 了 既定 的 立 
值 ，region 将 被 拆 分 成 两 个 ， 之 后 它们 可 以 接收 新 的 数据 并 继续 增长 。 
这 个 默认 行为 能 够 满足 大 多 数 用 例 的 需求 。 


其 中 一 种 可 能 出 现 问 题 的 情况 被 称 之 为 “ 拆 分 /合并 风 骏 ” 当 用 户 的 
region 大 小 以 恒定 的 速度 保持 增长 时 ，region 拆 分 会 在 同一 时 间 发 生 ， 
为 同时 需要 压缩 region 中 的 存储 文件 ， 这 个 过 程 会 重 写 拆 分 之 后 的 
region， 这 将 会 引起 磁盘 IO 上 升 。 


与 其 依赖 HBase 自 动 管理 拆 分 ， 用 户 还 不 如 关闭 这 个 行为 然后 手动 
调用 split 和 major_compact 命令 。 用 户 可 以 通过 设置 这 个 集群 的 
hbase.hregion.max.filesize 值 或 者 在 列 族 级 别 上 把 表 模 式 中 对 应 
参数 设置 成 非常 大 的 值 来 完成 。 为 防止 手动 拆 分 无 法 运行 ， 最 好 不 要 将 
其 设置 为 Long.MAX_VALUE 。 用 户 最 好 将 这 个 值 设置 为 一 个 合理 的 上 
限 ， 例 如 ，100 GB《〈 如 果 触 发 的 话 将 会 导致 一 个 小 时 的 major 合 并 ) 。 


手动 运行 命令 来 拆 分 和 压缩 region 的 好 处 是 可 以 对 它们 进行 时 间 控 

制 。 在 不 同 region 上 交错 地 运行 ， 这 样 可 以 尽 可 能 分 散 1/O 负 载 ， 并 且 避 
免 拆 分 /合并 风暴 。 用 户 可 以 实现 一 个 可 以 ， 调 用 split() 和 
majorCompact() 方法 的 客户 端 ， 也 可 以 使 用 Shell 交 互 地 调用 相关 命 
令 ， 或 者 使 用 cron 定时 地 运行 它们 。 用 户 可 以 参见 RegionSplitter 类 

(0.90.2 版 本 添加 进来 的 ) 的 另 一 种 拆 分 region 的 方法 : 其 拥有 滚动 拆 分 

(rolling split) 的 特性 ， 用 户 可 以 使 用 该 功能 拆 分 正在 长 时 间 等 待 合 # 
操作 完成 的 region (参见 -r 和 -o 命令 行 选项 ) 。 


另外 一 个 手动 管理 拆 分 的 优势 是 用 户 能 够 更 好 地 在 任意 时 间 控 制 哪 
些 region 可 用 。 这 对 于 用 户 需 要 解决 后 层 bug 这 种 少数 情况 来 说 是 十 分 有 
用 的 ， 例 如 ， 排 得 茶 一 个 region 的 问题 。 在 使 用 自动 拆 分 时 ， 用 户 可 能 














发 现 要 检查 的 region 已 经 被 两 个 拆 分 后 的 子 region 蔡 代 了 。 这 些 子 region 
有 新 的 名 字 ， 并 且 客 户 端 需要 大 量 的 时 间 重 新 定位 region， 这 使 得 查询 
所 需要 的 信息 变 得 更 加 困难 。 





11.4.2 region 热点 


M a 用 户 将 会 发 现 目 己 应 用 程序 的 模式 是 否 会 
让 特定 的 region 成 为 热点 。 


如 果 和 存在 这 种 情况 ， 请 参照 第 9 章 中 讨论 的 内 容 ， 尤 其 是 9.1 市 的 内 
A: 用 户 需 采用 盐 析 主键 (salt key) 或 者 使 用 随机 的 行 键 来 把 负载 均 
衡 到 所 有 的 服务 器 。 


唯一 可 以 缓解 这 种 现象 的 途径 就 是 手动 地 将 热点 region 按 特定 的 边 
界 拆 分 出 一 个 或 多 个 新 region， 然 后 将 子 region 负 载 分 布 到 多 个 region 服 
务 器 上 。 用 户 可 以 为 region 指 定 一 个 拆 分 行 键 ， 即 region 被 拆 分 为 两 部 分 
的 位 置 。 用 户 可 以 指定 region 中 任意 的 行 键 ， 这 样 用 户 也 可 以 生成 大 小 
完全 不 同 的 两 个 region。 


这 个 只 能 在 处 理 非 完全 连续 的 行 键 范围 时 起 作用 ， 因 为 采用 连续 的 
行 键 时 ， 过 一 段 时 间 插 入 的 数据 总 会 集中 到 最 近 生 成 的 几 个 region 上 。 

















表 热 点 


对 于 拥有 很 多 region 的 表 来 说 ， 大 部 分 region 分 布 并 不 
均匀 ， 即 大 多 数 region 位 于 同一 个 region 服 务 器 上 © 。 这 就 
意味 着 ， 即 使 用 随机 的 key 来 写 入 数据 ， 某 一 台 region 服 务 
器 的 负载 仍 大 于 其 他 的 region 服 务 器 。 用 户 可 以 从 HBase 
Shell 或 者 使 用 HBaseAdmin 类 中 的 API， 并 通过 5.2.4 市 中 介 
绍 的 move() 函数 显 式 地 把 region 从 一 个 region 服 务 器 移动 到 
男 一 个 region 服 务 器 。 男 外 一 个 方法 就 是 使 用 unassign() 
方法 或 者 Shell 命 令 简 单 地 从 当前 服务 器 移 除 受 影响 的 表 的 


region，master 会 立即 将 其 部 署 到 其 他 region 服 务 器 上 。 


11.4.3 ”了 预 拆 分 region 


管理 拆 分 能 够 在 集群 负载 增加 时 有 效 地 进行 负载 控制 。 但 是 ， 用 户 
仍然 会 面临 的 一 个 问题 是 ， 在 用 户 初 始 创 建 一 张 新 表 之 后 ， 用 户 需 要 频 
繁 地 拆 分 region， 因 为 建立 的 新 表 通 常 只 有 一 个 region， 不 推荐 让 单个 
region 增 长 到 太 大 。 因 此 ， 在 表 创 建 时 ， 最 好 就 有 较 大 数量 的 region。 用 
户 可 以 在 创建 表 时 指定 需要 的 region 数 目 来 达到 预 拆 分 的 目的 。 


管理 接口 中 的 createTable() 方法 和 Shell 中 的 create 命令 都 可 以 接 
受 以 列表 形式 提供 的 拆 分 行 键 作 为 参数 ， 该 参数 在 创建 表 的 时 候 会 被 用 
来 预 拆 分 region。HBase 提 供 了 一 个 能 帮助 用 户 创 建 预 拆 分 表 的 工具 
类 RegionSplitter 。 不 含 参数 时 它 将 会 显示 使 用 说 明 信 息 : 





$./bin/hbase org.apache.hadoop.hbase.util.RegionSplitter 


usage: RegionSplitter < TABLE> 


-c < region count> Create a new table with a pre-split number of 
regions 

-D < property=value> Override HBase Configuration Settings 

-f < family:family:...> Column Families to create with new table. 

Required with -c 

-h Print this usage help 

-0《 count> Max outstanding splits that have unfinished 
major compactions 

-r Perform a rolling split of an existing regio 

n 
--risky Skip verification steps to complete 


quickly.STRONGLY DISCOURAGED for production 
systems. 
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默认 采用 MD5SstringSsp1lit 类 将 行 键 拆 分 到 不 同 的 段 中 。 用 户 能 够 
通过 实现 提供 的 splitAlgorithm 接口 来 定义 自己 的 算法 ， 并 且 通 过 使 
用 -D split.algorithm=<your-algorithm-class> 参数 将 它 融 入 到 
工具 之 中 。 以 下 例子 使 用 了 提供 的 算法 并 创建 了 一 张 预 拆 分 的 表 : 











$./bin/hbase org.apache.hadoop.hbase.util.RegionSplitter \ 


-c 10 testtable -f colfam1 





在 master 的 Web 界 面 中 ， 用 户 能 够 通过 点 击 刚 刚 创建 的 表 名 来 查看 
生成 的 region。 


testtable, ,1309766006467 .c0937de9f1da31F2a6c2950537a61093. 

testtable, @ccccccc, 1309766006467 .83a8a6a949a6150c5680F39695450d8a. 
testtable, 19999998, 1309766006467 .1eba79c27eb9d5c2f89c3571F0d87a92. 
testtable, 26666664, 1309766006467 .7882cd50eb22652849491c08a6180258. 
testtable, 33333330, 1309766006467 .cef2853e36bd250c1b9324bac@3e4bc9. 
testtable, 3fffFfFFC, 1309766006467 .00365940761359fee14d41db6a73ffc5. 
testtable, 4cccccc8, 1309766006467. f0c5045c304c2FF5338be27e81ae698e. 
testtable, 59999994, 1309766006467 .2d854£337aa6c09232409fOba1d4964b. 
testtable, 66666660, 1309766006467 .b1lec9df9Fd9ed91F54cb18da5edc2581. 
testtable, 7333332c,1309766006468 .42e179b78663b64401079a8601d9bde6. 





或 者 使 用 Shell 的 create 命 令 : 





hbase(main):001:@>create 'testtable','colfami', \ 


{ SPLITS => ['row-100', 'row-2@0', 'row-3@0', 'row-400'] } 


© row(s)in 1.1670 seconds 





这 将 生成 以 下 的 region: 


testtable, ,1309768272330.37377c4ab0a944a326ba8b6596a29396. 

testtable, row-100, 1309768272331. e6092cc777f58a08c61bfO081aba14916. 
testtable, row-200, 1309768272331. 63c9630a79b37ebce7b58cde@235dfe5. 
testtable, row- 300, 1309768272331. eead6ad2FF3303Ffe6a3126e0dF3Fff7a. 


testtable, row-400, 1309768272331. 2bee7417fa67e4ac8c7210ce7325708e. 





关于 如 何 设 定 预 拆 分 的 region 数 量 ， 用 户 可 以 先 按照 每 个 服务 器 10 
个 region 来 进行 预 拆 分 ， 随 着 时 间 的 推移 观察 数据 的 增长 情况 。 先 设置 
较 少 的 region 数 目 再 稍 后 滚动 拆 分 它们 是 一 种 更 好 的 方法 ， 因 为 过 多 的 
region 通 常会 影响 集群 性 能 。 


男 一 种 方法 是 ， 用 户 可 以 基于 region 中 最 大 的 存储 文件 大 小 来 决定 
预 拆 分 region 的 数量 ， 随 着 数据 的 增加 ， 该 大 小 会 随 之 一 起 增加 。 用 户 
希望 最 大 的 region 下 好 能 够 跳 过 major 合 并 ， 否 则 用 户 可 能 会 面 对 前 面 所 
提 到 的 compaction 风 暴 。 


如 果 用 户 将 region 预 拆 分 的 太 小 ， 可 以 通过 增 
加 hbase.hregion.majorcompaction 的 值 来 加 大 major 合 并 的 间隔 。 
如 果 用 户 的 数据 规模 增加 过 大 ， 用 户 可 以 使 用 RegionSplitter 工具 在 
所 有 region 上 通过 网 络 1/O 执 行 安全 的 滚动 拆 分 。 


使 用 手动 拆 分 和 预 拆 分 是 高 级 概念 ， 需 要 用 户 有 谨慎 的 计划 并 仔细 
监控 操作 时 HBase 系 统 的 运行 情况 。 另 一 方面 ， 这 能 够 避免 全 局 一 致 的 
数据 增长 造成 的 合并 风暴 ， 并 可 以 通过 手动 拆 分 摆脱 region 热 点 的 困 





扰 。 


11.5 ”负载 均衡 


master 有 一 个 内 置 的 叫做 均衡 器 的 特性 。 在 默认 的 情况 下 ， 均 衡器 
每 五 分 钟 运行 一 次 ， 这 是 通过 hbase.balancer.period 属性 设置 的 。 
一 旦 均衡 器 启动 ， 它 将 会 尝试 均匀 分 配 region 到 所 有 region 服 务 器 。 启 动 
均衡 器 时 ， 均 衡器 首先 会 确定 一 个 region 分 配 计划 ， 该 计划 用 于 描述 
region 如 何 移动 。 然 后 通过 迭代 调用 管理 API 中 的 unassign() 方法 开始 


移动 region 。 


均衡 器 有 一 个 可 以 限制 自 喘 运行 时 间 的 上 限 ， 用 户 可 以 通过 
hbase.balancer.max.balancing 属性 来 配置 ， 默 认 设置 为 均衡 器 运 
行 间 隔 周期 的 一 半 ， 即 两 分 半 钟 。 


用 户 可 以 通过 均衡 器 开关 来 控制 均衡 器 : 使 用 Shell 的 balance_swith 
命令 来 更 改 均衡 器 的 开启 和 关闭 状态 ， 或 者 使 用 balanceSwitch() 接 
口 来 做 同样 的 事情 。 当 禁用 均衡 器 的 时 候 ， 它 将 不 会 如 预期 一 样 自动 运 
行 。 

















均衡 器 可 以 显 式 地 使 用 balancer 命令 进行 启动 ， 同 时 也 可 以 使 用 
API 中 的 balancer() 方法 。 以 上 介绍 的 目 动 均衡 过 程 会 隐 式 地 调用 这 
个 方法 。HBase 会 判断 如 果 需 要 负载 均衡 就 返回 true ， 返 回 false 则 意 
味 痢 不 能 运行 均衡 器 ， 原 因 要 么 是 开关 被 关闭 或 者 没有 工作 需要 做 〈 已 
经 达到 均衡 了 ) ， 也 有 可 能 其 他 工作 阻止 了 其 运行 。 例 如 ， 一 个 region 
处 于 事务 列表 中 《参见 6.5.1 节 的 “主页 ?部 分 ) : 如 果 一 个 region 正 处 于 
状态 转换 时 ， 均 衡 操 作 将 会 被 跳 过 。 


除了 依赖 均衡 器 完成 自己 的 工作 ， 用 户 还 可 以 使 用 move 命令 和 API 
方法 显 式 地 将 region 移 动 到 另 一 个 服务 器 上 。 当 用 户 想 控制 某 张 表 特定 
region 的 确切 位 置 时 ， 这 种 方法 是 很 有 用 的 。 详 细 内 容 请 参见 11.4.2 市 。 








11.6 region 


当 用 户 问 相应 的 表 中 插入 数据 时 ，region 目 动 拆 分 的 情况 是 很 常见 
的 。 当 然 在 茶 些 特殊 情况 下 ， 用 户 有 可 能 需要 合并 region， 例 如 ， 用 户 
删除 大 量 数据 并 且 想 减少 每 个 服务 器 管理 的 region 数 目 。 


HBase 集 成 了 一 个 工具 能 够 让 用 户 在 集群 没有 工作 时 合并 两 个 相 邻 
的 region。 可 以 使 用 命令 行 工 具 来 获得 使 用 说 明 : 











$./bin/hbase org.apache.hadoop.hbase.util.Merge 


Usage: bin/hbase merge< table-name>< region-1>< region-2> 








以 下 例子 中 ， 有 一 张 表 的 region 超 过 一 个 ， 接 下 来 将 合并 它们 : 





$./bin/hbase shell 


hbase(main):001:@>create 'testtable','colfam1', \ 


{SPLITS => ['row-10', 'row-20', 'row-30', 'row-4@', 'row-5Q' ]} 


© row(s)in 0.2640 seconds 


hbase(main):002:0>for i in '@'..'9' do for j in '@'..'9' do \ 


put 'testtable',"row-#{i}#{j}","colfam1:#{j}","#{j}" end end 


© row(s)in 1.0450 seconds 


hbase(main) :003:@>flush 'testtable' 


© row(s)in 0.2000 seconds 


hbase(main):004:@>scan '.META.',{ COLUMNS => ['info:regioninfo' ]} 


ROW COLUMN+CELL 
testtable, , 1309614509037 .612d1e0112 column=info:regioninfo, timestamp= 130 


406e6c2bb482eeaec57322. STARTKEY => '',ENDKEY => 'row-10' 
testtable, row-10,1309614509040.2fba column=info:regioninfo, timestamp=130. 


fcc9bc6afac94c465ce5dcabc5d1. STARTKEY => 'row-10',ENDKEY => ‘row-2 
Q' 
testtable, row-20,1309614509041.e7c1 column=info:regioninfo, timestamp=130. 


6267eb30e147e5d988c63d40F982. STARTKEY => ‘row-2@',ENDKEY => 'row-3 
0 1 

testtable, row-30,1309614509041.a9cd column=info:regioninfo, timestamp=130. 
e1cbc7d1a21blaca2ac7fda30ad8. STARTKEY => 'row-30',ENDKEY => 'row-4 


0 
testtable,row-40,1309614509041.d458 column=info:regioninfo, timestamp=130. 


236feaee97efcf33477e7acc51d4. STARTKEY => 'row-4@',ENDKEY => ‘row-5 
0 1 
testtable, row-50,1309614509041.74a5 column=info:regioninfo, timestamp= 130 


7dc7e3e9602d9229b15d4c@357d1. STARTKEY => 'row-50',ENDKEY => '' 
6 row(s)in 0.0440 seconds 


hbase(main) :005:@>exit 


$./bin/stop-hbase.sh 


$./bin/hbase org.apache.hadoop.hbase.util.Merge testtable \ 


testtable, row-20,1309614509041 .e7c16267eb30e147e5d988c63d40Ff982. \ 


testtable, row-30,1309614509041 .a9cde1lcbc7d1a21blaca2ac7fda3@ad8. 





这 个 例子 创建 了 一 张 有 5 个 拆 分 点 的 表 ， 并 产生 了 6 个 region。 然 后 





其 插入 一 些 记 录 并 刷 写 数据 ， 以 保证 有 存储 文件 来 进行 之 后 的 合并 操 
作 。 用 户 通 过 扫描 方法 来 获得 region 的 名 字 ， 用 户 也 可 以 使 用 master 的 
Web 界 面 ， 在 User Tables 部 分 中 点 击 表 名 获得 region 列 表 。 








Fa 


aa |: 

| 

一 人 注意 ，Shell 如 何 包装 列 值 。region 名 被 拆 分 成 了 两 
ae ae oa ZV 


需要 分 别 复制 粘贴 。 网 页 界面 在 这 方面 更 加 好 用 一 些 ， 
因为 它 在 独立 的 一 行 一 列 中 显示 了 名 字 。 





在 上 面 的 例子 中 ， 列 值 被 缩 简 到 开始 和 结束 键 的 位 置 。 用 户 可 以 发 
现 create 命令 使 用 拆 分 键 创 建 了 region。 这 个 例子 接 下 来 需要 退出 Shell 
并 停止 HBase 集 群 。 注 意 HDFS 要 保持 运行 ， 因 为 它 需 要 在 每 个 region 中 
读 取 存储 文件 并 将 它们 合并 成 一 个 新 的 存储 文件 。 











11.7 客户 端 API: 最 佳 实践 


当 用 户 通 过 客户 端 使 用 接口 读 写 数据 的 时 候 ， 有 许多 优化 方法 可 供 
选择 来 提升 性 能 。 这 里 是 最 佳 实践 选项 的 列表 : 


茶 止 目 动 刷 写 


当 有 大 量 的 写 入 操作 时 ， 使 用 setAutoFlush(false) 方法 ， 确 认 
HTable 自动 刷 写 的 特性 已 经 被 关闭 。 人 否则 Put 实例 将 会 被 逐个 传送 到 
region 服 务 器 。 通 过 HTable.add(Put) 和 HTable.add(Put) 添加 的 put 
实例 都 会 添加 到 一 个 相同 的 写 入 缓存 中 ， 如 果 用 户 禁 用 了 自动 刷 写 ， 这 
些 操作 直到 写 缓冲 区 被 填 满 时 才 会 被 送 出 。 如 果 要 显 式 地 刷 写 数据 ， 用 
户 可 以 调用 flushCommits() 方法 。 调 用 HTable 实例 的 close 方法 也 
会 隐 式 地 调用 flushCommits()。 


使 用 扫描 缓存 


如 果 HBase 被 用 作 一 个 MapReduce 作 业 的 输入 源 ， 请 最 好 将 作为 
MapReduce 作 业 输 入 扫描 器 实例 的 缓存 用 setCaching() 方法 设置 为 比 
默认 值 1 大 得 多 的 值 。 使 用 默认 的 值 意 味 着 map 任 务 会 在 处 理 每 条 记录 
时 都 请 求 region 服 务 器 。 例 如 ， 将 这 个 值 设 置 为 500， 则 一 次 可 以 传送 
500 行 数据 到 客户 端 进行 处 理 。 这 里 用 户 需 要 权衡 传输 数据 的 开销 和 内 
存 的 开销 ， 因 为 缓存 更 大 之 后 ， 无 论 是 客户 端 还 是 服务 右 端 部 将 消耗 更 
多 内 存 缓存 数据 ， 所 以 大 的 缓存 并 不 一 定 最 好 。 


限定 扫描 范围 


当 Scan 被 用 来 处 理 大 量 行 时 (特别 是 被 用 作 MapReduce 输 入 源 
IN) ， 注 意 哪些 属性 被 选中 了 。 如 果 Scan.addFamily() 被 调用 了 ， 那 
么 特定 列 族 中 的 所 有 列 都 将 会 被 返回 到 客户 端 。 如 果 只 处 理 少 数列 ， 则 
应 当 只 有 这 些 列 被 添加 到 Scan 的 输入 中 ， 因 为 选择 了 过 多 的 列 将 导致 
在 大 数据 集 上 极 大 的 效率 损失 ， 这 可 不 是 一 件 小 事 。 


关闭 ResultSscanner 


这 不 会 市 来 性 能 提升 ， 但 是 会 避免 可 能 的 性 能 问题 。 如 采用 户 态 记 
关闭 由 HTable.getScanner() 返回 的 ResultScanner 实例 ， 则 有 可 能 

















对 服务 妖 端 造成 影响 。 
一 定 要 在 try/catch 的 finally 块 中 关闭 ResultScanner ， 例 如 : 


Scan scan = new Scan(); 
// configure scan instance 
ResultScanner scanner = table.getScanner(scan) ; 
try { 
for(Result result : scanner){ 
// process result... 
} finally { 
scanner.close(); // always close the scanner! 


table.close(); 





块 缓存 用 法 


Scan 实例 能 够 通过 sscan 实例 能 够 通过 setCacheBlocks() 方 
etCacheBlocks() 方法 来 设置 使 用 region 服 务 器 中 的 块 绥 存 。 如 果 
MapReduce 作 业 中 使 用 扫描 ， 这 个 方法 应 当 被 设置 成 false 。 对 于 那些 
频繁 访问 的 行 ， 建 议 使 用 块 缓存 。 


优化 获取 行 键 的 方式 


当 执 行 一 个 表 的 扫描 以 获取 需要 的 行 键 时 (没有 列 族 、 列 名 、 列 值 
AES TAK) ， 在 Scan 中 用 setFilter() 方法 添加 一 个 
带 MUST_PASS_ALL 操作 符 的 FilterList 。FilterList 中 包含 
FirstKeyFilter 和 KeyOnlyFilter 两 个 过 滤器 ， 在 4.1.3 节 中 提 到 过 。 
使 用 以 上 组 合 的 过 滤器 将 会 把 发 现 的 第 一 个 KeyValue 行 键 〈 也 就 是 第 
一 列 的 行 键 ) 返回 给 客户 端 ， 这 将 会 最 大 程度 地 减少 网 络 传输 。 


关闭 Put 上 的 WAL 
一 个 经 党 讨论 的 提高 写 吞 吐 量 的 方式 是 使 用 Put 的 
writeToNAL(false) 来 关闭 WAL。 这 样 服务 器 端 就 不 会 把 这 个 Put 写 


到 WAL 中 ， 而 只 把 它 写 到 memstore 里 ， 不 过 一 旦 region 服 务 嚣 出现 故障 
就 会 丢失 数据 。 如 果 用 户 使 用 了 writeToWAL(false) ， 请 特别 小 心 。 





用 户 可 能 会 发 现 把 数据 在 集群 间 分 布 均匀 后 ， 关 闭 日 志 所 带 来 的 性 能 提 
升 并 不 明显 。 


总 而 言 之 ， 最 好 是 在 写 入 数据 时 使 用 WAL， 并 且 如 果 特 别 关 心 吞 
吐 量 的 话 ， 就 用 批量 导入 (bulk load) 技术 ， 这 个 技术 将 在 12.2.3 节 中 
进行 介绍 。 





11.8 配置 


用 户 可 以 使 用 许多 的 配置 项 来 优化 集群 。2.6 节 列举 出 了 运行 集群 
时 用 户 需要 更 改 和 设置 的 内 容 。 这 里 也 有 一 些 高 级 选项 ， 用 户 需要 根据 
应 用 的 需求 来 调整 它 人 站。 下 面 是 一些 常见 的 配置 项 和 应 当 如 何 调整 它们 
9 说 明 。 


| W 上 
一 主要 的 配置 都 放 在 了 配置 文件 hbase-site.xml 中 。 编 
辑 这 个 文件 ， 然 后 将 文件 复制 到 集群 的 所 有 服务 器 上 ， 并 重 
启 所 有 服务 器 来 使 更 新 的 配置 生效 。 








减少 ZooKeeper 超 时 的 发 生 


默认 在 region 服 务 器 和 ZooKeeper 集群 之 间 的 超时 时 间 是 3 分 钟 ， 并 
使 用 zookeeper.session.timeout 属性 来 设置 。 这 意味 着 ， 如 果 服 务 
器 月 尝 ，master 将 在 3 分 钟 后 发 现 这 个 骨 尝 现象， 并 开始 恢复 数据 。 用 户 
Ege ne once eae 这 样 master 就 能 够 很 快 地 发 现 这 一 
故障 。 


在 改变 值 之 前 ， 确 认 用 户 服 务 器 上 JVM 的 垃圾 回收 机 制 是 受 控 的 ， 
因为 长 时 间 垃 圾 回收 且 回 收 运行 时 间 超 过 ZooKeeper 会 话 的 超时 上 限 可 
能 导致 region 服 务 器 被 误 认 为 月 尝 。 不 过 如 果 这 是 用 户 所 需要 的 那 就 不 
ys: 用 户 可 能 希望 在 region 服 务 器 进行 长 时 间 垃 圾 回收 时 启动 数据 
恢复 ， 这 样 数据 可 能 会 更 快 变 为 可 用 。 


默认 值 特别 长 的 原因 是 为 了 避免 在 大 数据 导入 的 情况 下 产生 问题 : 
写 入 大 量 数据 时 会 对 region 服 务 器 产生 很 大 的 压力 ， 这 样 更 有 可 能 导致 
出 现 垃 圾 回收 暂停 的 问题 。 参 见 12.5.3 节 中 “稳定 性 问题 > 部 分 介绍 的 方 
法 来 检测 这 种 停顿 。 


























增加 处 理 线程 


hbase.regionserver.handler.count 属性 定义 了 响应 外 部 用 户 
访问 数据 表 请 求 的 线程 数 。 默 认 值 10 有 些 偏 小 ， 这 是 为 了 防止 用 户 在 客 
户 端 高 并 发 使 用 较 大 写 绥 冲 区 的 情况 下 使 服务 器 端 过 载 。 将 这 个 值 设 得 
小 是 为 了 优化 单 次 请 求 涉及 的 数据 量 达到 MB 级 别 ( 如 较 大 的 写 入 和 使 
用 大 绥 存 的 扫描 ) 场景 ， 而 当 单 次 请 求 开 销 较 小 时 〈 如 get、 较 小 的 
put、increment 和 delete 等 操作 ) 可 以 将 工作 线程 数 设 得 高 一 些 。 


如 末 客 户 器 的 请 求 开销 较 小 时 ， 用 户 将 该 属性 设置 为 最 大 的 客户 端 
数目 会 比较 安全 。 典 型 的 例子 残 是 ， 当 一 个 集群 服务 于 一 个 网 站 时 ， 写 
请 求 一 般 不 会 使 用 缓存 ， 同 时 大 多 数 的 请 求 都 是 读 取 数 据 。 


将 这 个 值 设 置 得 高 也 有 可 能 产生 问题 ， 因 为 并 发 的 写 请 求 涉及 到 的 
数据 累加 起 来 之 后 很 可 能 会 对 一 个 region 服 务 器 的 内 存 造成 巨大 压力 ， 
这 甚至 会 导致 服务 器 端 抛 出 OutofMemoryError 异常 。region 服 务 器 运 
行 在 可 用 内 存 过 低 的 情况 下 时 ， 其 将 会 使 JVM 的 垃圾 回收 器 运行 地 更 加 
频繁 ， 同 时 随 之 发 生 的 停顿 也 会 更 加 明显 (原因 是 内 存 都 被 写 请 求 占 
用 ， 无 论 垃圾 回收 器 怎么 衬 试 ， 它 们 都 不 能 被 回收 〉。 一 段 时 间 后 ， 集 
群 的 和 厨 吐 量 就 会 受到 影响 ， 因 为 命中 这 个 服务 器 的 请 求 都 会 变 慢 ， 这 样 
会 使 其 内 存 紧张 的 情况 更 加 严重 。 


增加 堆 大 小 


HBase 默 认 使 用 一 组 合理 并 且 保 守 的 配置 ， 该 配置 可 以 满足 大 多 数 
不 同 机 型 的 测试 需求 。 如 果 用 户 使 用 更 好 的 服务 器 ， 则 其 可 以 给 HBase 
分 配 8 GB 或 更 大 的 内 存 空间 。 用 户 可 以 在 habse-env.sh 文件 中 调 
整 HBASE_HEAPSIZE 的 设置 。 


























注意 ， 使 用 HBASE_REGIONSERVER_OPTS 而 非 全 局 的 
HBASE_HEAPSIZE: 在 这 种 方式 下 ，master 将 会 以 默认 1GB 的 堆 运行 ， 
region 服 务 器 则 会 按 用 户 单 独 指定 的 堆 空 间 运行 。 


这 个 配置 项 在 hbase-env.sh 文件 中 ，hbase-site.xml 文件 则 用 于 其 他 
大 多 数 属性 。 


司 用 数据 压缩 


用 户 应 当 为 存储 文件 局 用 压缩 ， 尤 其 推荐 使 用 Snappy 或 者 LZO 压 
给 。 这 两 个 近乎 平滑 的 压缩 算法 在 大 多 数 应 用 中 都 能 够 使 应 用 性 能 得 到 
提升 。 参 见 11.3 贡 以 获取 所 有 有 关 压 缩 算 法 的 信息 。 


增加 region 大 小 


更 大 的 region 可 以 减少 集群 总 的 region 数 目 。 一 般 来 说 ， 管 理 较 少 的 
region 可 以 让 集群 的 运行 更 平稳 。 一 个 region 变 热点 后 ， 用 户 可 以 手动 拆 
分 大 的 region 并 将 负载 分 散 到 集群 中 ，11.4 节 有 更 详 介 绍 。 


在 默认 情况 下 ，region 的 大 小 是 256 MB。 用 户 可 以 配置 1 GB 或 者 更 
大 的 region。 注 意 ， 该 参数 的 大 小 要 仔细 评估 ， 大 的 region 也 意味 着 在 高 
负载 的 情况 下 合并 的 停顿 时 间 更 长 。 


用 户 可 以 在 hbase-site.xml 文件 中 调 
整 hbase.hregion.max.filesize 属性 的 值 。 


调整 块 缓存 大 小 


控制 堆 中 块 缓存 大 小 的 属性 是 一 个 用 浮 点 数 类 型 的 百分比 值 ， 默 认 
值 是 20% (BN0.2) 。 改 变 perf.hfile.block.cache.size 属性 可 以 改 
变 这 个 百分比 值 。 仔 细 观 察 块 缓存 的 使 用 情况 (参见 10.2.3 节 ) ， 看 看 
是 否 存 在 许多 块 被 换 出 的 情况 。 如 果 存 在 这 种 情况 ， 用 户 就 可 以 考虑 增 
加 块 缓存 大 小 来 容纳 更 多 的 块 。 


用 户 负 和 载 大 多 数 为 读 请 求 是 为 一 个 增加 块 缓存 大 小 的 原因 。 此 时 
A 需要 块 缓存 ， 增 加 块 缓存 的 大 小 可 以 帮助 用 户 缓存 更 多 的 
数据 











| 

性 ”| 块 缓存 与 nemstore 的 上 限 不 能 超过 100%。 用 户 需要 
为 其 他 操作 保留 空间， 不 然 服务 器 端 可 能 面临 内 存 紧张 的 问 
题 。 默 认 它 们 占用 的 堆 空 间 量 是 6096， 这 是 一 个 合理 的 值 。 
只 有 当 用 户 确 认 有 必要 并 且 不 会 造成 副作用 时 ， 用 户 才能 关 








其 设 定 超过 这 个 上 限 的 值 。 


Vi] #memstore bE fill 


内 存 存 储 占用 的 堆 大 小 
用 hbase.regionserver.global.memstore.upperLimit 属性 来 配 
置 ， 默 认 值 为 40% 【设置 为 0.4) 。 此 
4h, hbase.regionserver.global.memstore. lowerLimit 属性 ( 设 
置 为 35% 或 者 0.35) 用 于 控制 当 服 务 右 清空 memstore 之 后 剩余 的 大 小 。 
将 上 限 和 下 限 设置 得 接近 一 些 以 避免 过 度 刷 写 。 


当 用 户主 要 在 处 理 读 请 求 时 ， 其 可 以 考虑 同时 减少 memstore 的 上 下 
限 来 增加 块 缓存 的 空间 。 另 一 方面 ， 当 用 户 在 处 理 许多 写 请 求 时 应 该 检 
查 日 志文 件 (或 者 使 用 10.2.3 市 中 提 到 的 region 服 务 器 监控 ) ， 如 果 刷 写 
的 数据 量 都 很 小 ， 如 5 MB， 用 户 就 有 必要 通过 增加 内 存 存 储 的 限制 来 
降低 过 度 IO 操 作 。 


增加 阻塞 时 存储 文件 数目 


这 个 值 是 通过 hbase.hstore.blockingstoreFiles 属性 来 设置 
的 ， 它 决定 了 当 存 储 文件 的 数目 达到 病 值 时 ， 更 新 操作 (ut, delete 
等 ) 将 会 被 阻塞 ， 并 以 此 来 给 合并 操作 留 出 时 间 来 减少 存储 文件 的 数 
目 。 当 应 用 经 常 遇 到 大 负载 的 突 发 写 入 请 求 时 ， 用 户 需 要 稍稍 增加 这 个 
值 来 应 对 这 种 情况 ， 其 默认 值 是 7。 


用 户 可 以 使 用 监控 来 观察 region 服 务 占 管理 的 存储 文件 数目 ， 如 果 
文件 数 一 直 很 高 ， 那 么 用 户 可 能 不 适合 提高 这 个 配置 项 的 大 小 ， 因 为 这 
样 做 只 会 延迟 由 于 服务 器 负载 过 重 而 产生 的 无 法 避免 的 问题 。 


增加 阻塞 倍率 


属性 hbase.hregion.memstore.block.multiplier 的 默认 值 为 
2， 它 是 一 个 用 于 阻塞 来 自 客户 症 更 新 数据 请 求 的 安全 门 值 ， 当 
memstore 达 到 属性 multiplier FeV flush 的 大 小 限制 时 会 阻止 进一步 的 更 
新 。 














当 有 足够 的 存储 空间 时 ， 用 户 可 以 增加 这 个 值 来 更 加 平 谓 地 处 理 写 
入 突 发 流量 : 与 阻塞 更 新 操 来 等 等 memstore 完 成 刷 写 相 比 ， 用 户 可 以 临 
时 接收 更 多 的 数据 。 


减少 最 大 日 志文 件 限制 


设置 hbase.regionserver.maxlogs 属性 使 得 用 户 能 够 控制 基于 
磁盘 的 WAL 文 件数 目 ， 进 而 控制 刷 写 频率 。 该 参数 的 默认 值 是 32， 对 
于 写 压 力 比较 大 的 应 用 来 说 这 个 值 有 点 高 。 降 低 这 个 值 会 强迫 服务 器 更 
频繁 地 将 数据 刷 写 到 磁盘 上 ， 这 样 已 经 刷 写 到 磁盘 上 的 数据 所 对 应 的 日 
志 就 可 以 被 丢弃 了 。 


11.9 ”负载 测试 


在 安装 好 集群 之 后 ， 建 议 运 行 负载 测试 来 验证 集群 功能 。 这 些 测 试 
能 够 在 用 户 修改 集群 设置 或 者 表 络 构 后 提供 对 比 的 基准 线 。 在 用 户 的 集 
群 上 执行 一 个 负载 测试 可 以 告诉 用 户 集 群 所 能 达到 的 性 能 ， 但 是 这 并 不 
能 够 取代 使 用 实际 用 例 负载 的 测试 。 


11.9.1 性 能 评价 


HBase 有 自己 的 性 能 评价 工具 ， 名 为 PE (Performance 
Evaluation) 。 用 户 可 以 在 不 加 命令 行 参 数 时 使 用 它 以 获得 使 用 帮助 : 








$./bin/hbase org.apache.hadoop.hbase.PerformanceEvaluation 


Usage: Java org.apache.hadoop.hbase.PerformanceEvaluation \ 
[--miniCluster] [--nomapred] [--rows=ROWS] < command>< nclients> 


Options: 

miniCluster Run the test on an HBaseMiniCluster 

nomapred Run multiple clients using threads(rather than use map re 
duce) 

rows Rows each client runs. Default: One million 


flushCommits Used to determine if the test should flush the table. 
Default: false 


writeToWAL Set writeToWAL on puts. Default: True 
Command: 
filterScan Run scan test using a filter to find a specific row based 


on it's value(make sure to use --rows=20) 
randomRead Run random read test 
randomSeekScan Run random seek and scan 100 test 


randomWrite Run random write test 

scan Run scan test(read every row) 

scanRange10 Run random seek scan with both start and stop row(max 10 
rows ) 


scanRange1@@ Run random seek scan with both start and stop row(max 100 r 
ows ) 

scanRange10@@ Run random seek scan with both start and stop row(max 1000 

rows) 


scanRange16666 Run random seek scan with both start and stop row(max 1000 
© rows) 

sequentialRead Run sequential read test 

sequentialWrite Run sequential write test 


Args: 
nclients Integer. Required. Total number of clients(and HRegionServers) 
running: 1 < = value < = 500 
Examples: 
To run a single evaluation client: 
$ bin/hbase org.apache.hadoop.hbase.PerformanceEvaluation sequentialWrite 
1 





PE 默认 是 作为 MapReduce 作 业 来 执行 的 ， 除 非 用 户 指定 一 个 客户 端 
或 使 用 - -nomapred 参数 。 用 户 可 以 通过 上 述 信息 来 查看 默认 值 ， 默 认 
值 都 是 较为 合理 的 起 始 值 ， 以 下 是 运行 测试 的 例子 : 


$./bin/hbase org.apache.hadoop.hbase.PerformanceEvaluation sequentialWrite 
1 


11/07/03 13:18:34 INFO hbase.PerformanceEvaluation: Start class \ 
org.apache.hadoop.hbase.PerformanceEvaluation$SequentialWriteTest at \ 
offset 6 for 1048576 rows 

11/07/03 13:18:41 INFO hbase.PerformanceEvaluation: @/104857/1048576 


11/07/03 13:18:45 INFO hbase.PerformanceEvaluation: @/209714/1048576 


11/07/03 13:20:03 INFO hbase.PerformanceEvaluation: @/1048570/1048576 

11/07/03 13:20:03 INFO hbase.PerformanceEvaluation: Finished class \ 
org.apache.hadoop.hbase.PerformanceEvaluation$SequentialWriteTest \ 
in 89062ms at offset © for 1048576 rows 





命令 行 创 建 一 个 单独 客户 跨 ， 并 且 执 行 连续 的 写 入 测试 。 命 令 行 将 
一 直 显 示 完 成 的 进度 直到 打印 最 后 的 结果 。 当 用 户 确定 客户 端 服务 器 负 
载 并 不 太 大 时 ， 可 以 增加 一 定数 量 的 客户 端 (也 就 是 说 线程 或 者 








MapReduce 任 务 ) 。 
这 里 不 需要 指定 表 名 ， 不 需要 设 定 列 族 ，PE 代 码 会 自动 生成 表 和 对 
应 的 模式 : 一 张 拥有 一 个 叫做 info 的 列 族 的 名 字 为 TestTable 的 表 。 


地 + 
wW i 
一 用 户 需要 在 做 读 测试 之 前 运行 过 写 测试 ， 写 测试 将 
会 生成 表 并 插入 数据 ， 该 数据 可 供 后 面 的 读 测试 使 用 。 








使 用 随机 或 顺序 的 读 写 测试 可 以 帮助 用 户 模 拟 特定 的 负载 ， 但 用 户 
不 能 把 它们 混合 在 一 起 测试 ， 也 就 是 说 用 户 只 能 把 它们 分 开 测 试 。 


11.9.2 YCSB 
Yahoo 的 云 服 务 基准 测试 系统 (Yahoo! Cloud Serving Benchmark © 


，YCSB) 是 一 套用 于 比较 不 同系 统 的 工具 。 虽 然 它 主要 用 于 比较 不 同 
系统 之 间 的 性 能 ， 但 它 同 样 也 适用 于 对 HBase 集 群 进行 超 负 蓓 测试 。 


安装 


YCSB 只 能 够 通过 网 络 库 获 取 ， 并 需要 目 己 编译 二 进 制 
文件 。 首 先 要 做 的 事情 是 复制 网 络 库 的 内 容 : 








$git clone http://github.com/brianfrankcooper/YCSB. git 


Initialized empty Git repository in /private/tmp/YCSB/.git/ 


Resolving deltas: 100%(475/475),done. 








这 将 会 在 当前 目录 下 创建 一 个 本 地 YCSB 目录 。 接 下 来 的 步骤 就 是 
进入 新 创建 的 目录 ， 复 制 HBase 所 需要 的 库 并 编译 可 执行 文件 : 





$cd YCSB/ 


$cp $HBASE_HOME/hbase*.jar db/hbase/1lib/ 


$cp $HBASE_HOME/1lib / *.jar db/hbase/lib/ 


gant 


Buildfile: /private/tmp/YCSB/build. xml 


makejar: 
[jar] Building jar: /private/tmp/YCSB/build/ycsb. jar 


BUILD SUCCESSFUL 
Total time: 1 second 


$ant dbcompile-hbase 


BUILD SUCCESSFUL 
Total time: 1 second 


| 


这 个 过 程 只 有 几 秒 钟 的 时 间 ， 然 后 会 在 build 文件 夹 下 
a el 








在 用 户 可 以 运行 YCSB 之 前 ， 需 要 创建 所 需 的 测试 表 ， 名 字 
A lene epee OP eee 
族 ， 例 Hs: 


$./bin/hbase shell 


hbase(main):001:@>create ‘usertable','family' 


© row(s)in 0.3420 seconds 





如 果 用 户 无 参数 运行 YCSB，YCSB 会 为 用 户 提供 使 用 帮助 ; 





$Java -cp build/ycsb.jar:db/hbase/lib/ * com.yahoo.ycsb.Client 


Usage: Java com.yahoo.ycsb.Client [options] 
Options: 

-threads n: execute using n threads(default: 1)- can also be specified 
as the 


"threadcount" property using -p 
-target n: attempt to do n operations per second(default: unlimited)- ca 
n also 
be specified as the "target" property using -p 
-load: run the loading phase of the workload 
-t: run the transactions phase of the workload(default) 
-db dbname: specify the name of the DB to use(default: com.yahoo.ycsb. B 
asicDB) - 
can also be specified as the "db" property using -p 
-P propertyfile: load properties from the given file. Multiple files can 
be specified,and will be processed in the order specifie 
d 
-p name=value: specify a property to be passed to the DB and workloads; 
multiple properties can be specified,and override any 
values in the propertyfile 
-s: show status during run(default: no status) 
-1 label: use label for status(e.g. to label one experiment out of a wh 
ole 
batch) 


Required properties: 
workload: the name of the workload class to use 
(e.g. com.yahoo.ycsb.workloads.CoreWorkload) 


To run the transaction phase from multiple servers,start a separate client 
on each. To run the load phase from multiple servers,start a separate clie 
nt 

on each;additionally,use the "insertcount" and "insertstart" properties to 
divide up the records to be inserted 








测试 运行 中 HBase 集 群 的 第 一 步 是 加 载 一 定数 量 的 记录 ， 这 些 记 录 
接 下 来 会 用 于 修改 相同 的 行 ， 或 者 往 表 中 加 入 新 的 记录 : 





$Java -cp $HBASE HOME/conf:build/ycsb.jar:db/hbase/lib/ * \ 


com.yahoo.ycsb.Client -load -db com.yahoo.ycsb.db.HBaseClient \ 


-P workloads/workloada -p columnfamily=family -p recordcount=100000000 \ 


-S > ycsb-load.log 





y 





个 命令 将 会 运行 一 段 时 间 并 创建 记录 ， 记录 的 结构 由 给 定 的 导入 
文件 控制 ， 在 这 里 是 由 workloada 控制 ， 它 包含 以 下 设置 : 


DK 


$cat workloads/workloada 


# Yahoo! Cloud System Benchmark 
# Workload A: Update heavy workload 
Application example: Session store recording recent actions 


Read/update ratio: 50/50 
Default data size: 1 KB records(10 fields,100 bytes each,plus key) 
Request distribution: zipfian 


recordcount=1000 
operationcount=1000 
workload=com. yahoo. ycsb.workloads.CoreWorkload 


readallfields=true 


readproportion=0.5 
updateproportion=@.5 
scanproportion=0 
insertproportion=0 


requestdistribution=zipfian 








用 户 可 以 参考 YCSB 的 联机 文档 来 查阅 关 于 如 何 修改 记录 结构 的 详 
细 说 明 ， 以 外 ， 用 户 也 可 以 按照 自己 的 意愿 来 调整 设置 。 文 件 中 指定 了 
使 用 load 语句 时 产生 的 数据 大 小 以 及 列 的 数量 。 这 个 工具 的 输出 将 重 
定 问 到 日 志文 件 ， 内 容 如 下 : 


YCSB Client 0.1 

Command line: -load -db com.yahoo.ycsb.db.HBaseClient -P workloads/ worklo 
ada \ 

-p columnfamily=family -p recordcount=100000000 -s 
[OVERALL ],RunTime(ms),915.0 

[OVERALL], Throughput (ops/sec),1092.896174863388 

[ INSERT], Operations, 1000 
[INSERT],AverageLatency(ms) ,@.457 
[INSERT],MinLatency(ms) ,@ 
[INSERT],MaxLatency(ms) , 314 

[INSERT], 95thPercentileLatency(ms),1 

[INSERT], 99thPercentileLatency(ms),1 

[ INSERT], Return=@, 1000 

[INSERT],@,856 

[INSERT],1,143 

[INSERT],2,0 

[INSERT], 3,0 

[INSERT],4,0 





上 上述 初 始 记录 的 写 性 能 数据 是 十 分 有 价值 的 。 默 认 的 记录 数 是 1000 
行 ， 我 们 增加 了 记录 数 来 反映 更 真实 的 负载 情况 。 用 户 可 以 在 命令 行 上 
修改 任何 一 个 设置 选项 。 如 果 用 户 经 常 使 用 同一 种 结构 ， 那 么 用 户 可 以 
通过 命令 行使 用 -P 参数 来 引用 它 。 


YCSB 性 能 测试 的 第 二 步 是 在 准备 好 的 表 上 执行 负载 测试 作业 ， 例 





如 : 





$Java -cp $HBASE HOME:build/ycsb.jar:db/hbase/lib/ * \ 


com.yahoo.ycsb.Client -t -db com.yahoo.ycsb.db.HBaseClient \ 


-P workloads/workloada -p columnfamily=family -p operationcount=1000000 -s 
\ 


-threads 10 > ycsb-test.log 














5 ERRERA DRHE, H is BER AY ii RE HE 
增加 《或 者 用 你 自己 修改 过 的 结构 文件 ) 测试 操作 的 次 数 ， 并 将 并 发 的 
线程 数 设置 为 一 个 合理 的 值 。 如 果 用 户 使 用 了 太 多 的 线程 ， 这 将 会 使 测 
试 机 《〈 即 运行 YCSB 的 服务 器 ) 负载 过 重 。 在 这 样 的 情况 下 ， 最 好 的 方 





法 就 是 在 不 同 的 机 器 上 同时 运行 相同 的 测试 。 


输出 也 被 重 定向 到 了 日 志文 件 ， 这 样 用 户 就 能 够 在 测试 完成 之 后 进 
行 评 佑 了。 输出 将 包含 以 下 这 些 行 : 





]$ cat transactions.dat 
YCSB Client 6.1 


Command line: -t -db com.yahoo.ycsb.db.HBaseClient -P workloads/workloada 
-p \ 

columnfamily=family -p operationcount=1000 -s -threads 10 
[OVERALL ],RunTime(ms),575.0 

[OVERALL], Throughput (ops/sec),1739.1304347826087 
[UPDATE], Operations, 507 

[UPDATE], AverageLatency(ms) ,2.546351084812623 
[UPDATE],MinLatency(ms) ,@ 

[UPDATE],MaxLatency(ms) ,414 
[UPDATE],95thPercentileLatency(ms),1 
[UPDATE],99thPercentileLatency(ms),1 

[UPDATE], Return=0, 507 

[UPDATE],0,455 

[UPDATE],1,49 

[UPDATE], 2,0 

[UPDATE], 3,0 


[UPDATE] ,997,6 

[UPDATE] ,998 ,6 

[UPDATE] ,999,6 

[UPDATE], >1000,0 

[READ] ,Operations , 493 

[READ] ,AverageLatency(ms) ,7.711967545638945 
[READ] ,MinLatency(ms) ,@ 

[READ] ,MaxLatency(ms) ,417 
[READ],95thPercentileLatency(ms) ,3 
[READ] ,99thPercentileLatency(ms) ,416 
[ READ], Return=0, 493 

[READ],0,1 

[READ],1,165 

[READ],2,257 

[READ],3,48 

[READ],4,11 

[READ],5,4 

[READ],6,0 


[READ],998,0 
[READ],999,0 
[READ], >1000,0 





注意 ，YCSB 很 难 模 拟 应 用 负载 ， 但 使 用 它 的 测试 仍旧 是 有 意义 
的 ， 因 为 它 可 以 测试 集群 在 不 同 负载 下 的 表现 。 使 用 默认 提供 的 结构 文 
件 或 者 自己 创建 的 结构 文件 来 模拟 读 写 或 读 写 混合 的 操作 。 


当 用 户 运 行 批量 作业 时 ， 例 如 ，MapReduce 处 理 或 扫描 一 个 数据 集 
合 或 整 张 表 ， 同 时 也 可 以 运行 YCSB 来 测试 各 种 操作 之 间 的 影响 。 


ae 
W ip 
一 一 对 写 操 作 来 说 ， 与 HBase 提 供 的 性 能 评估 工具 相 
比 ，YCSB 更 加 适合 。 因 为 它 提 供 了 更 多 的 选项 ， 并 有 能够 将 
读 写 负载 混合 在 一 起 。 








D 演示 的 视屏 可 以 在 网 上 下 载 〈 http:/horfolk.cs.washington.edu/htbin- 
post/unrestricted/Colloq/details.cgi?id=437 ) 。 


©) Java 使 用 Java 本 地 接口 (Java Native Interface, JNI ) 来 与 本 地 库 或 应 
用 集成 。 


© 见 维基 百科 页 面 “Using LZO Compression” ( 
http://wiki.apache.org/hadoop/UsingLzoCompression ) ， 其 中 有 在 HBase 
中 使 用 LZO 的 详细 介绍 。 

(4) Hadoop 项 目 有 一 个 页 面 〈 
http://hadoop.apache.org/common/docs/current/nativelibraries.html ) 专门 
介绍 编译 和 或 安装 本 地 库 的 方法 ， 其 中 包括 GZIP 的 内 容 。 


© 作为 另 一 种 选择 ， 用 户 也 可 以 查看 master UI 页 面 的 TPS， 参 见 6.5.1 节 
中 的 “主页 ”部 分 。 


© 在 HBase 0.92.0 中 ， 开 发 人 员 已 经 完成 了 很 多 改善 工作 。 


@ 参见 GitHub 库 中 的 工程 〈 http://grthub.com/brianfrankcooper/YCSB ) 
来 查看 细节 信息 。 











第 12 章 ”集群 管理 


一 旦 集群 开始 运转 ， 用 户 可 能 会 想 要 改变 集群 的 大 小 或 添加 一 些 额 
外 的 机 制 来 应 对 出 现 的 故障 ， 这 些 可 能 需要 在 集群 正在 提供 服务 时 进 
行 。 有 时 用 户 需 要 将 数据 备份 或 迁移 到 不 同 的 集群 。 接 下 来 我 们 会 介绍 
如 何在 对 集群 造成 最 小 影响 的 情况 下 完成 这 些 工作 。 


本 节 介 绍 了 操作 集群 时 所 必需 的 一 些 任务 ， 包 括 增加 和 移 除 节点 。 
12.1.1 减少 节点 


用 户 可 以 在 指定 节点 的 HBase 目 录 下 使 用 以 下 命令 停止 集群 中 的 一 
个 region 服 务 器 。 


$ ./bin/hbase-daemon.sh stop regionserver 





region 服务 器 会 先 将 它 所 有 的 region 关闭 ， 然 后 再 把 自己 的 进程 停 
止 。region 服 务 器 在 ZooKeeper 中 对 应 的 临时 节点 (ephemeral node) 将 
会 过 期 。master 会 注意 到 region 服 务 器 停止 服务 并 将 其 按 骨 尝 的 服务 器 
处 理 : master 会 将 这 人 台 服 务 器 上 的 region 重 新 分 配 到 其 他 机 器 上 。 


让 市 皮下 线 前 先 禁用 负载 均衡 





如 果 在 关闭 节点 时 负载 均衡 还 在 运行 ， 则 在 负载 均衡 
和 master 恢 复 刚才 下 线 的 region 服务 器 之 间 可 能 产生 竞争 。 
要 避免 这 种 情况 发 生 ， 请 先 禁用 负载 均衡 : 使 用 Shell 工 具 
HEAT OO PF BRE. 


hbase(main):001:@> balance_switch false 


true 
© row(s)in 0.3590 seconds 





以 上 操作 会 关闭 balancer。 如 需 局 用 ， 请 输入 如 下 命 


hbase(main) :002:@> balance_switch true 


false 
© row(s)in 0.3590 seconds 





以 上 停止 region 服务 器 的 方法 的 坏处 是 ，region 会 下 线 一 段 时 间 ， 
时 间 的 长 度 由 ZooKeeper 超 时 时 间 决 定 。region 是 按 顺 序 关闭 的 : 如 果 服 
务 器 上 有 很 多 region， 第 一 个 被 关闭 的 region 要 等 所有 region 都 关闭 ， 旦 
master 注 意 到 region 服 务 器 的 znode 被 删除 之 后 才能 上 线 。 


HBase 0.90.2 引 入 了 一 种 可 以 让 region 服务 器 逐渐 较 少 其 负载 并 停 
止 服务 的 方法 。 这 项 功能 由 graceful_stop.sh 脚本 完成 。 不 带 参 数 使 用 时 
会 显示 以 下 使 用 说 明 : 


$ ./bin/graceful_stop.sh 








Usage: graceful_stop.sh [--config &conf-dir>] [--restart] [--reload] \ 
[--thrift] [--rest] &hostname> 


thrift If we should stop/start thrift before/after the hbase stop/ 
start 

rest If we should stop/start rest before/after the hbase stop/star 
t 

restart If we should restart after graceful stop 

reload Move offloaded regions back on to the stopped server 

debug Move offloaded regions back on to the stopped server 

hostname Hostname of server we are to stop 





如 果 用 户 要 下 线 一 个 region 服务 器 ， 可 以 输入 以 下 内 容 : 


$ ./bin/graceful_stop.sh HOSTNAME 





HOSTNAME 是 用 户 要 卸载 的 region 服务 器 。 





S fg graceful_stop.sh 的 HOSTNAME 参数 必须 与 HBase 
用 于 辨别 region 服务 器 的 名 字 一 致 。 用 户 可 以 在 master UI 列 
表 中 查看 HBase 是 如 何 引 用 每 个 服务 器 的 。region 服 务 器 标识 
通常 情况 下 会 是 hostname ， 也 有 可 能 是 一 个 全 称 域名 
(FQDN) ， 例 如 ，hostname .foobar .com 。 用 户 需 要 把 








HBase 使 用 的 服务 器 名 作为 参数 传 入 graceful_stop.sh 脚本 。 


如 果 用 户 传 入 IP 地 址 ， 脚 本 不 会 智能 地 将 其 转换 
为 hostname 或 全 称 域名 ， 同 时 会 在 检查 阶段 出 现 错误 : 这 种 
ye He El region 服务 器 的 方法 不 会 继续 执行 。 


graceful_stop.sh 脚本 会 把 region 从 对 应 的 服务 器 上 一 个 个 移出 来 以 
减少 扰动 。 它 会 在 移动 到 下 一 个 region 前 先 检查 新 位 置 上 的 region 是 否 已 
经 部 署 好 ， 直 到 对 应 的 要 关闭 的 服务 右上 没有 region 了 。 


此 时 脚本 会 让 对 应 的 服务 器 关闭 。master 会 察觉 到 服务 器 停止 了 服 
务 ， 不 过 此 时 服务 右上 的 region 已 经 都 被 转移 并 部 署 好 了 。 同 时 ， 由 于 
服务 器 关闭 时 没有 region， 所 以 也 不 会 有 WAL 切 分 的 相关 操作 。 


12.1.2 ”滚动 重启 
用 户 也 可 以 使 用 graceful_stop.sh 脚本 来 重启 服务 器 ， 并 将 之 前 属于 


它 的 region 移 回 原 位 《用 户 可 能 会 选择 后 者 以 保持 数据 的 局 部 性 ) 。 最 
简单 的 滚动 重 局 可 以 使 用 以 下 脚本 来 完成 : 











$ for i in ‘cat conf/regionservers|sort';do ./bin/graceful_stop.sh \ 


--restart --reload --debug $i;done &> /tmp/log.txt & 





可 以 使 用 tail 命令 查 看 /tmp/log.txt 中 脚本 运行 的 进度 。 以 上 操作 只 
aaa 同时 请 确保 在 执行 上 述 操作 之 前 已 禁用 负载 均 
衡 。 


用 户 需要 单独 对 master 进 行 升级 ， 同 时 建议 最 好 预先 完成 这 项 工 
作 。 以 下 是 实现 滚动 重启 的 步 又。 


1. 解压 用 户 要 升级 的 发 行 版 ， 将 配置 调整 好 并 分 发 到 整个 集群 。 
如 果 用 户 使 用 的 是 0.90.2 版 ， 还 需要 打上 HBASE-3744 和 HBASE-3756 补 
Wea 


2. 运行 hbck 以 确认 集群 数据 的 一 致 性 〈 主 要 验证 meta 表 ) ， 如 果 
有 不 一 致 的 情况 修复 一 下 。 








$ ./bin/hbase hbck 





3. 重启 master。 


$ ./bin/hbase-daemon.sh stop master;./bin/hbase-daemon.sh start master 





4. 关闭 region 均 衡器 。 


$ echo "balance_switch false" | ./bin/hbase shell 





5. 在 每 个 region 服务 器 上 运行 graceful_stop.sh 脚本 。 例 如 : 


$ for i in ‘cat conf/regionservers|sort` ;do ./bin/graceful_stop.sh \ 


--restart --reload --debug $i;done &> /tmp/log.txt & 





如 果 用 户 运 行 了 Thrift 或 REST 服务 ， 请 在 运行 脚本 时 传 入 --thrift 
或 --rest 选项 ， 详 情 请 参考 之 前 介绍 过 的 使 用 说 明 ( 即 不 加 任何 参数 运 
行 脚 本 时 得 到 的 使 用 说 明 ) 。 


6. 再 次 重启 master。 这 样 会 清除 其 保存 的 骨 尝 的 服务 器 列表 ， 并 
同时 启动 负载 均衡 器 。 


7. 运行 hbck 以 确认 集群 一 致 性 。 
12.1.3 ”新 增 服务 器 
HBase 的 一 种 主要 特性 是 内 置 的 高 扩展 性 。 当 用 户 集 群 负载 加 重 


时 ， 用 户 需要 通过 添加 服务 器 来 满足 新 需求 。 添 加 新 服务 器 是 一 种 十 分 
简单 的 操作 ， 并 可 以 在 任何 模式 下 完成 该 操作 ， 分 布 式 模式 请 参见 2.5.2 
Tis 


1. 伪 分 布 式 模式 


即使 HBase 的 所 有 后 台 程 序 都 在 不 同 的 进程 中 运行 ， 在 本 地 模式 下 
运行 HBase 与 扩展 HBase 看 起 来 仍然 是 矛盾 的 。 伪 分 布 式 模式 是 用 户 能 
使 用 的 最 接近 于 真实 状态 的 运行 情况 的 模拟 。 在 开发 或 原型 设计 时 ， 如 
果 能 在 一 台 服务 器 上 模拟 整个 集群 的 运行 状态 也 是 非常 有 用 的 。 


因为 所 有 进程 都 要 分 至 本 地 资源 ， 所 以 并 非 局 动 的 服务 进程 越 多 性 
能 越 好 。 实 际 上 ， 伪 分 布 式 模式 适合 少量 数据 的 测试 。 此 外 ， 它 几乎 可 
以 让 用 户 测试 HBase 提 供 的 所 有 结构 特性 。 











例如 ， 用 户 可 以 在 master 故 障 恢复 场景 中 或 region 从 一 个 服务 器 移 
动 到 另 一 个 服务 器 的 情况 下 进行 实验 。 当 然 ， 这 并 不 能 完全 蔡 代 在 真实 
的 集群 上 使 用 模拟 的 生产 环境 预期 的 负载 进行 测试 。 但 是 ， 它 可 以 帮助 
用 户 使 学 习 使 用 HBase 提 供 的 管理 功能 ， 如 HBase Shell。 


用 户 也 可 以 使 用 第 5 章 中 介绍 的 HBase 的 管理 API。 用 户 可 以 使 用 它 
们 来 开发 管理 表 结 构 或 者 调整 集群 负载 的 工具 。 许 多 生产 环境 下 的 应 用 
所 以 能 在 本 地 先 对 这 些 功 能 进行 测试 是 非常 有 益 
ie 














wW 上 
一 用 户 必 须 先 按 伪 分 布 式 模式 配置 自己 的 安装 ， 同 时 
作为 备份 master 必 须 使 用 以 下 命令 启动 。 以 下 脚本 会 启动 一 个 
新 的 master 进 程 ， 但 不 会 启动 整个 HBase 本 地 集群 。 





添加 本 地 备份 master 。 用 户 可 以 使 用 bin 目录 下 的 local-master- 
backup.sh 脚本 来 启动 本 地 设备 的 master 进 程 如 下 所 示 。 


$ ./bin/local-master-backup.sh start 1 





命令 最 后 的 数字 指定 了 master 的 RPC 端 口 和 和 Web UI 端口 与 默认 配置 
值 的 偏 移 量 ， 两 端口 的 默认 值 分 别 是 60000 和 60010， 偏 移 量 会 被 加 到 相 
应 的 默认 值 上 。 在 上 面 的 命令 中 ， 一 个 新 的 master 进 程 将 会 启动 ， 并 与 
通 种 情况 一 样 读 取 与 原 master 相 同 的 配置 ， 不 过 监听 的 端口 号 分 别 为 
60001 和 60011。 





换 名 话说， 这些 参数 是 必须 填写 的 且 不 代表 用 户 要 启动 几 个 备份 
master， 而 只 是 指定 了 启动 的 master 要 使 用 的 端口 。 启 动 多 个 master 进 程 
请 按 下 面 的 方式 输入 : 





$./bin/local-master-backup.sh start 1 3 5 





这 样 会 启动 3 个 用 于 备份 的 master， 分 别 使 用 60001、60003 和 60005 
作为 RPC 监 听 端 口 ， 同 时 使 用 60011、60013 和 60015 作 为 Web UI 监 听 端 





用 户 需 要 确定 要 使 用 的 端口 与 其 他 进程 没有 冲突 。 
例如 ， 不 要 使 用 30 作 为 偏 移 量 ， 因 为 这 会 使 master 使 用 60030 
为 RPC 端 口 ， 而 这 个 端口 已 被 region 服 务 器 用 作 UI 端 口 。 





局 动 脚本 也 会 在 进程 使 用 的 日 志文 件 名 中 添加 这 个 仿 移 量 ， 这 样 就 
可 以 将 它 的 日 志 与 其 他 本 地 进程 使 用 的 日 志文 件 区 分 开 。 例 如 ， 仿 移 量 
为 1 时 ， 其 日 志文 件 名 为 : 


logs/hbase-${USER}-1-master-${HOSTNAME}.log 


注意 ， 文 件 名 中 多 出 的 1。 如 末 使 用 10 作 为 偏 移 量 ， 则 文件 名 中 添 
加 的 应 为 10。 


用 户 想 要 停止 备份 master 时 ， 可 以 把 start 命令 蔡 换 为 stop 命令 ， 








如 下 所 示 : 


$ ./bin/local-master-backup.sh stop 1 














用 户 需 要 指定 需要 停止 的 备份 master 端 口 的 偏 移 量 ， 并 有 晶 可 以 一 次 
停止 一 个 或 多 个 备份 master: 用 户 指定 的 端口 偏 移 量 用 于 停止 对 应 的 


master. 


添加 本 地 region 服务 器 。 与 之 相似 ， 用 户 可 以 启动 附加 的 本 地 
region 服 务 器 。 用 户 所 需 使 用 的 脚本 为 local-regionservers.sh ， 同 时 参数 
类 型 与 local-master-backup.sh 脚本 相同 : 用 户 可 以 指定 端口 偏 移 量 列表 
用 于 启动 和 停止 对 应 的 服务 进程 。 


不 同 的 是 ，region 服 务 器 默认 使 用 60200 作 为 RPC 端 口 ， 和 60300 作 
为 Web UI 端口 。 例 如 : 




















$ ./bin/local-regionservers.sh start 1 





这 条 命令 会 启动 一 MUP 的 region 服 务 器 ， 并 指定 60201 端 口 为 RPC 
监听 端口 ， 以 及 60301 端 口 为 web UI 监 听 端 口 。 同 时 为 日 志文 件 名 添加 
这 个 偏 移 量 ， 如 下 所 示 : 


logs/hbase-${USER}-1-regionserver-${HOSTNAME}. log 





与 此 同时 ， 用 户 需 要 确定 这 些 端口 没有 被 其 他 进程 占用 ， 和 否则 用 户 





局 动 多 个 region 服 务 器 可 以 通过 谎 加 多 个 俩 移 量 来 完成 : 


$ ./bin/local-regionservers.sh start 1 2 3 








oul 
ce IF 
FES 用 户 不 必 使 用 1 作为 第 一 个 端口 的 偏 移 量 。 因 这 个 
偏 移 量 只 是 被 简单 地 加 到 了 默认 端口 号 上 ， 所 以 用 户 可 以 随 
意 指定 自己 想 要 的 偏 移 量 。 





通过 把 start 换 成 stop 来 停止 一 个 额外 的 region 服务 器 可 以 使 用 


如 下 命令 : 


$ ./bin/local-regionservers.sh stop 1 





这 条 命令 会 停止 使 用 以 1 为 偏 移 量 的 region 服 务 器 。 它 的 端口 为 
60201 和 60301。 如 果 用 户 之 前 用 1 作为 偏 移 量 启动 过 region 服 务 占 ， 那 么 


它 会 被 关闭 。 
2. 完全 分 布 式 集群 


在 运行 一 个 HBase 集 群 时 ，— 典 型 的 操作 就 是 加 现 有 和 集群 添加 新 的 服 
务 嚣 ， 且 通常 添加 region 服务 器 ， 因 为 它们 承担 了 集群 的 大 部 分 负载 。 
对 master 用 户 来 说 ， 其 可 以 启动 一 个 可 选 的 备份 实例 。 


添加 一 个 备份 master。 用 户 通过 添加 备份 master 可 以 避免 因 master 
出 现 故障 而 造成 HBase 单 点 失效 ， 这 是 一 种 典型 做 法 ， 备 份 master 节 点 
通常 在 不 同 的 服务 器 上 局 动 ， 所 以 在 最 坏 的 情况 下 ， 当 前 master 失 效 
后 ， 系 统 可 以 切换 到 备份 master 上 。 


master 进 程 使 用 ZooKeeper 来 协商 哪 一 个 是 当前 活动 的 进程 : 
ZooKeeper 中 有 一 个 所 有 master 进 程 都 会 竞争 的 专用 znode， 第 一 个 竞争 
到 的 master 会 创建 这 个 znode， 也 意味 着 它 在 竞争 中 胜出 。 这 个 过 程 发 生 
在 集群 启动 时 ， 竞 争 获胜 的 master 会 成 为 当前 提供 服务 的 master。 其 他 
的 master 进 程 只 是 轮 询 检 查 这 个 znode， 当 它 消失 时 再 次 竞争 。 


/hbase/master znode 是 临时 znode， 同 样 类 型 的 znode 也 被 region 服务 
器 用 于 报告 它们 的 存在 状态 。 当 master 创 建 znode 失 败 时 ，ZooKeeper 会 
注意 到 会 话 过 期 并 删除 这 个 znode， 以 及 触发 新 master 的 选举 。 


在 多 人 台 机 器 上 局 动 服务 时 ， 要 求 其 HBase 配 置 应 与 集群 其 他 服务 器 
一 致 〈《 参 见 2.6 节 介绍 的 详细 信息 ) 。 通 常 master 服 务 器 的 配置 与 集群 的 
其 他 机 器 相同 ， 一 旦 用 户 确 认 配 置 没 有 问题 ， 用 户 可 以 使 用 以 下 命令 在 
用 户 指定 的 服务 器 上 局 动 一 个 备份 master: 





$ ./bin/hbase-daemon.sh start master 





假设 用 户 已 经 有 master 正 在 运行 了， 这 条 命令 就 会 局 动 一 个 新 的 
master 进 程 等 待 ZooKeeper 中 的 znode 被 移 除 ”。 如 果 用 户 想 让 这 个 过 程 


更 自动 化 一 些 ， 并 指定 一 个 专门 的 服务 器 来 运行 当前 的 master， 那 么 所 
有 其 他 的 master 都 将 被 认为 是 备份 master， 用 户 可 以 使 用 --backup 参 
数 : 


$ ./bin/hbase-daemon.sh start master --backup 





这 会 让 新 启动 的 master 等 待 一 个 专用 的 master， 即 使 用 start- 
HBase.sh 脚本 启动 的 ， 或 不 加 --backup 参 数 启 动 的 master 在 ZooKeeper 中 
创建 /hbase/master 这 个 znode。 一 旦 创建 完成 ， 新 启动 的 备份 master 束 会 
进入 轮 询 选举 阶段 。 因 为 现在 已 经 有 master 在 运行 了 ， 它 们 会 如 之 前 解 
释 的 那样 进入 空闲 模式 。 


ce 

) 如 果 用 户 启动 了 不 只 一 个 master， 同 时 用 户 经 历 过 

故障 恢复 ， 那 么 就 不 太 容 易 知道 现在 正在 对 外 提供 服务 的 

master 是 哪 一 个 了 。 所 以 也 不 知道 对 应 的 web UI 在 哪 台 服 务 
器 上 。 用 户 需要 使 用 http:/hostname:60010 在 所 有 可 能 的 

master 服务 器 上 尝试 查找 当前 提供 服务 的 master 包 











从 HBase 0.90.x 开 始 ， 用 户 也 可 以 在 conf 目录 下 添加 bacKkup-masters 
文件 来 指定 备份 服务 器 。 这 个 文件 与 regionservers 文件 相似 ， 其 中 按 行 
列 出 了 需要 启动 备份 master 的 服务 器 的 主机 名 。 人 参考 2.6.6 节 ， 我 们 可 以 
假设 有 3 个 备份 master 运 行 在 ZooKeeper 所 在 的 服务 器 上 。 在 这 种 情况 
下 ， 配 置 文件 confpbpackup-masters 中 的 内 容 大 致 如 下 : 


zk1.foo.com 
zk2.foo.com 
zk3.foo.com 





在 一 个 规模 较 小 的 集群 中 将 这 些 master 进 程 配置 到 ZooKeeper 运 行 的 
服务 器 上 是 很 好 的 选择 ， 因 为 master 被 设计 为 集群 运行 时 的 协调 者 ， 所 
以 不 需要 太 多 资源 。 


eh, 
一 人 用 户 可 以 启动 足够 的 备份 master 来 达到 自己 要 求 的 
处 理 失 效 的 标准 。 启 动 得 太 多 并 没有 什么 坏处 ， 不 过 启动 得 
太 少 则 可 能 为 当前 系统 留 下 隐患 。 不 过 用 户 也 可 以 采用 一 些 
监控 手段 来 报告 master 节 点 失效 。 你 可 以 尝试 修复 节点 并 重新 
将 它 添加 到 集群 中 。 总 之 ， 启 动 两 到 三 个 备份 节点 比较 合 


i. 








注意 ，backup-masters 中 的 节点 会 使 用 - -backup 选项 来 启动 备份 
master 进 程 。 并 且 在 start-hbase.sh 脚本 启动 主 master 和 region 服 务 器 之 
后 ， 备 份 master 才 会 启动 。 此 外 ， 用 户 也 可 以 运行 hbase-backup.sh 脚本 
来 初始 化 启动 备份 服务 器 。 


添加 region 服 务 右 。 添 加 一 个 新 的 region 服 务 器 是 运行 集群 时 的 常 
用 操作 。 首 先 ， 用 户 需 要 修改 conf 目录 下 的 regionservers 文件 ， 这 样 可 
以 使 启动 脚本 能 够 添加 新 服务 器 。 包 简单 地 在 文件 中 添加 一 行 ， 内 容 
为 对 应 服务 器 的 主机 名 即 可 。 


用 户 修改 配置 文件 之 后 ， 还 需要 将 其 复制 到 集群 中 所 有 的 机 器 上 。 
同时 ， 用 户 需要 保证 新 添加 的 机 右上 已 经 安装 了 HBase， 且 配置 正确 。 


之 后 用 户 拥 有 多 种 方式 来 启动 新 的 region 服务 器 进程 。 一 种 是 通过 
在 master 机 器 上 运行 start-hbase.sh 脚本 ， 它 会 跳 过 所 有 已 经 启动 region 服 
务 器 的 服务 。 由 于 新 添加 的 节点 中 没有 region 服 务 器 进程 ， 它 将 正常 启 
动 region 服 务 器 守护 进程 。 


男 一 种 方法 是 ， 使 用 局 动 脚本 直接 在 新 市 点 上 局 动 ， 具 体操 作 如 





$ ./bin/hbase-daemon.sh start regionserver 
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以 上 操作 必须 在 用 户 要 添加 新 region Ik as WERE 
的 节点 上 使 用 。 


新 启动 的 region 服 务 器 进程 会 启动 ， 并 使 用 自己 的 主机 名 在 
ZooKeeper 中 创建 对 应 的 znode 来 进行 注册 ， 然 后 它 会 加 入 集群 ， 以 及 被 


分 配 region。 


12.2 ”数据 任务 


当 用 户 使 用 HBase 集 群 时 ， 将 会 处 理 壳 布 在 一 张 或 多 张 表 中 的 大 量 
数据 。 有 时 为 了 备份 数据 而 需要 移动 全 部 或 部 分 数据 到 归档 数据 中 。 以 
下 是 几 种 完成 这 项 任务 所 需 的 方法 。 





12.2.1 导入 /导出 


HBase 发 布 了 一 些 有 用 的 工具 ， 其 中 两 个 是 支持 导入 和 导出 的 
MapReduce 人 作业。 它们 可 以 将 部 分 或 全 部 的 表 写 入 到 HDFS 文 件 中 ， 且 
随后 可 以 再 载 入 它们 。 这 些 工 具 包 含 在 HBase 的 JAR 文 件 中 ， 用 户 可 以 
通过 hadoop jar 命令 来 获得 这 些 工 具 的 列表 。 





$ hadoop jar $HBASE_HOME/hbase-@.91.0-SNAPSHOT. jar 


An example program must be given as the first argument. 
Valid program names are: 
CellCounter: Count cells in HBase table 
completebulkload: Complete a bulk data load. 
copytable: Export a table from local cluster to peer cluster 


export: Write table data to HDFS. 
import: Import data written by Export. 
importtsv: Import data in TSV format. 
rowcounter: Count rows in HBase table 
verifyrep: Compare the data from tables in two different clusters. 
WARNING: It doesn't work for incrementColumnValues'd cells since the 
timestamp is changed after being appended to the log. 








在 命令 后 面 添加 export 参数 名 就 可 以 显示 该 命令 的 用 法 : 





$ hadoop jar $HBASE_HOME/hbase-0.91.0-SNAPSHOT.jar export 


ERROR: Wrong number of arguments: 6 

Usage: Export [-D < property=value>]* < tablename> < outputdir> \ 
[< versions> [< starttime> [< endtime>]] \ 
[*[regex pattern] or [Prefix] to filter]] 


Note: -D properties will be applied to the conf used. 
For example: 
-D mapred.output.compress=true 
-D mapred.output.compression.codec=org.apache.hadoop.io.compress. GzipC 
odec 
-D mapred.output.compression. type=BLOCK 
Additionally,the following SCAN properties can be specified 
to control/limit what is exported.. 
-D hbase.mapreduce.scan.column.family=< familyName> 





用 户 可 以 看 到 该 命令 提供 了 多 种 选项 。 其 中 只 有 tablename 和 
outputdir 两 个 参数 是 必需 的 。 其 他 参数 都 是 可 选 参数 。 表 12-19 列 
出 了 所 有 可 用 的 选项 。 


SARENA 
导出 数据 存放 在 HDFS 中 的 路 径 





表 12-1 导出 工具 的 参数 








每 列 备份 的 版 本 数量 ， 默 认 值 为 1 


ene 开始 时 间 ， 进 一 步 限 制 保存 的 版 本 。3.5.1 节 详细 介绍 了 这 部 分 所 使 用 
的 setTimeRange() 方法 的 详细 信息 
扫描 所 使 用 的 时 间 范 围 的 结束 时 间 


， | 当 以 sw 开始 时 ， 该 选项 被 当做 正则 表达 式 来 匹配 行 键 ， 否 则 会 被 当 
“ee Ps “| 做 行 键 的 前 绥 
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Sas 

—— regexp 参数 使 用 了 RowFilter 和 
RegexStringComparator ， 这 两 部 分 均 在 4.1.2 节 的 “ 行 过 滤 
器 CRowFilter ) ”中 做 了 介绍 ， 而 prefix 则 使 用 了 4.1.3 市 
的 “前 级 过 滤器 (PrefixFilter ) ”所 讨论 的 PrefixFilter 











用 户 必须 从 左 到 右 指 定 参 数 ， 不 能 省 略 在 这 之 间 的 任何 一 个 参数 。 
换 句 话说 ， 如 果 想 指定 一 个 行 键 过 滤器 ， 用 户 必 须 指定 版 本 以 及 开始 和 
结束 时 间 。 如 果 不 需 要 这 些 参数 ， 用 户 只 需要 将 它们 设 定 为 它们 的 最 小 
值 和 最 大 值 ， 例 如 ， 将 开始 时 间 设 为 0， 而 将 结束 时 间 设 
为 9223372636854775867 (由 于 时 间 是 一 个 长 整 型 数 ) 。 这 样 会 保证 
时 间 范 围 不 会 被 考虑 在 内 。 


Wa 
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一 尽管 用 户 提供 了 HBase JAR 文 件 ， 用 户 还 需要 几 个 
额外 的 依赖 来 保证 能 够 顺利 执行 MapReduce 作 业 。 它 需要 以 
下 几 个 JAR 文 件 : zookeeper-xyz.jar 、guava-xyz.jar 和 google- 
collections-xyz.jar 。 用 户 必 须 确 保 MapReduce 作 业 可 以 访问 到 
这 些 文件 。 其 中 一 个 方法 是 将 它们 添加 到 $HADOOP_HOME/ 
conf/hadoop-env.sh 的 HADOOP_CLASSPATH 变量 中 。 


执行 以 下 命令 就 会 启动 MapReduce 作 业 ， 并 且 打 印 出 进度 ; 


$ hadoop jar $HBASE_HOME/HBase-0.91.0-SNAPSHOT.jar export \ 


testtable 


11/06/25 
01 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
001 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 
11/06/25 


.JobClient: 


.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 


.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 


/user/larsgeorge/backup-testtable 


Running job: job_201106251558_ 00 


map 
map 
map 
map 
map 
map 
map 
map 
map 
map 
map 
map 
map 
map 
map 
map 
map 
map 


0% reduce 0% 

6% reduce 0% 

9% reduce 0% 

15% reduce 0% 
21% reduce 0% 
28% reduce 0% 
34% reduce 0% 
40% reduce 0% 
46% reduce 0% 
53% reduce 0% 
59% reduce 0% 
65% reduce 0% 
71% reduce 0% 
78% reduce 0% 
84% reduce 0% 
90% reduce 0% 
96% reduce 0% 
100% reduce 0% 


Job complete: job_201106251558 © 


Counters: 6 
Job Counters 


Rack-local map tasks=32 
Launched map tasks=32 


FileSystemCounters 
HDFS BYTES WRITTEN=3648 
Map-Reduce Framework 
Map input records=@ 
Spilled Records=0 
Map output records=0 





一 旦 作业 结束 ， 可 以 检查 文件 系统 中 的 导出 数据 。 以 下 使 用 了 
hadoop dfs 命令 “〈 每 一 行 都 缩减 了 部 分 内 容 以 保持 水 平 页 面 宽度 ) : 


$ hadoop dfs -lsr /user/larsgeorge/backup-testtable 


drwxr-xr-x 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 


PPPAPPAPPPPPPPPPPPPPPPAPPPPPPPPAPPPAPPPAPI 


2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 
2011-06-25 


_logs 

part -m-@0000 
part -m-@0001 
part -m-@0002 
part -m-00003 
part -m-@0004 
part -m-@0005 
part -m-@0006 
part -m-@0007 
part -m-@0008 
part -m-@0009 
part -m-@0010 
part-m-@0011 
part -m-@0012 
part -m-@0013 
part -m-@0014 
part -m-@0015 
part -m-@0016 
part -m-@0017 
part -m-00018 
part -m-@0019 
part -m-@0020 
part-m-@0021 
part -m-@0022 
part -m-@0023 
part -m-@0024 
part-m-@0025 
part -m-@0026 
part -m-@0027 
part -m-@0028 
part -m-@0029 
part -m-@0030 
part -m-@0031 





每 一 个 part-m-nnnnn 文件 都 包含 导出 一 部 分 数据 ， 将 这 些 文件 合并 
到 一 起 束 会 形成 整 张 表 的 备份 。 现 在 可 以 使 用 hadoop distcp 命令 将 这 个 
文件 夹 复制 到 另 一 个 集群 ， 并 在 那儿 进行 导入 操作 。 


用 户 也 可 以 使 用 可 选 参数 实现 增 量 备份 : 将 开始 时 间 设 置 为 上 一 次 
备份 的 时 间 。 作 业 仍 然 会 扫描 全 表 ， 但 是 只 导出 从 上 次 备份 之 后 修改 过 


的 部 分 。 


只 导出 一 列 值 的 最 新 版 本 在 大 多 数 场景 下 是 可 以 接受 的 ， 但 是 如 果 
需要 整 张 表 的 备份 ， 就 需要 将 versions 设置 为 2147483647 ， 这 意味 
着 备份 所 有 的 版 本 。 


导入 数据 是 反 加 操作， 我 们 首先 可 以 运行 不 带 参 数 的 命令 来 获得 详 
细 使 用 说 明 ， 然 后 可 以 使 用 tablename 和 :inputdir 这 两 个 参数 来 启动 
作业 ，inputdir 指 包 含 导出 文件 的 文件 夹 。 

















$ hadoop jar $HBASE_HOME/hbase-0.91.0-SNAPSHOT.jar import 


ERROR: Wrong number of arguments: 6 
Usage: Import < tablename> < inputdir> 


$ hadoop jar $HBASE_HOME/hbase-@.91.0-SNAPSHOT.jar import \ 


testtable /user/larsgeorge/backup-testtable 


11/06/25 17:09:48 INFO mapreduce.TableOutputFormat: Created table instance 
\ 
for testtable 

11/06/25 17:09:48 INFO input.FileInputFormat: Total input paths to process 
> 32 

11/06/25 17:09:49 INFO mapred.JobClient: Running job: job 201106251558 00 

03 

11/06/25 17:09:50 INFO mapred.JobClient: map 0% reduce 0% 

11/06/25 17:10:04 INFO mapred.JobClient: map 6% reduce 0% 


11/06/25 17:10:07 INFO mapred.JobClient: map 12% reduce 0% 
11/06/25 17:10:10 INFO mapred.JobClient: map 18% reduce 0% 
11/06/25 17:10:13 INFO mapred.JobClient: map 25% reduce 0% 
11/06/25 17:10:16 INFO mapred.JobClient: map 31% reduce 0% 
11/06/25 17:10:19 INFO mapred.JobClient: map 37% reduce 0% 
11/06/25 17:10:22 INFO mapred.JobClient: map 43% reduce 0% 
11/06/25 17:10:25 INFO mapred.JobClient: map 50% reduce 0% 
11/06/25 17:10:28 INFO mapred.JobClient: map 56% reduce 0% 
11/06/25 17:10:31 INFO mapred.JobClient: map 62% reduce 0% 
11/06/25 17:10:34 INFO mapred.JobClient: map 68% reduce 0% 
11/06/25 17:10:37 INFO mapred.JobClient: map 75% reduce 0% 
11/06/25 17:10:40 INFO mapred.JobClient: map 81% reduce 0% 
11/06/25 17:10:43 INFO mapred.JobClient: map 87% reduce 0% 
11/06/25 17:10:46 INFO mapred.JobClient: map 93% reduce 0% 
11/06/25 17:10:49 INFO mapred.JobClient: map 100% reduce 0% 
11/06/25 17:10:51 INFO mapred.JobClient: Job complete: job_201106251558_ 0 
003 

11/06/25 17:10:51 INFO mapred.JobClient: Counters: 6 
11/06/25 17:10:51 INFO mapred.JobClient: Job Counters 


11/06/25 17:10:51 INFO mapred.JobClient: Launched map tasks=32 
11/06/25 17:10:51 INFO mapred.JobClient: Data-local map tasks=32 
11/06/25 17:10:51 INFO mapred.JobClient: FileSystemCounters 
11/06/25 17:10:51 INFO mapred.JobClient: HDFS_BYTES_READ=3648 
11/06/25 17:10:51 INFO mapred.JobClient: Map-Reduce Framework 
11/06/25 17:10:51 INFO mapred.JobClient: Map input records=0 
11/06/25 17:10:51 INFO mapred.JobClient: Spilled Records=0 
11/06/25 17:10:51 INFO mapred.JobClient: Map output records=0 
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18" 用 户 可 以 使 用 导入 作业 将 数据 存储 到 一 个 不 同 的 表 
中 ， 只 要 这 张 表 使 用 的 是 相同 的 模式 ， 就 可 以 在 命令 行 中 指 
定 任意 一 个 不 同 的 表 名 。 





MapReduce 作 业 读 取 导 出 的 文件 数据 ， 并 将 其 存储 到 指定 的 表 中 。 
最 后 ， 导 出 /导入 工具 的 组 合 是 每 张 表 的 组 合 。 如 果 用 户 拥 有 多 张 表 ， 








用 户 需 要 分 开 执行 每 张 表 的 作业 。 


使 用 DistCp 


用 户 必 须 使 用 HBase 提 供 的 工具 才能 操作 一 张 表 。 用 户 
似乎 也 可 以 使 用 hadoop distcp 命令 复制 HDFS 上 的 整 
个 /hbase 目录 以 备份 数据 。 但 是 我 们 不 推荐 使 用 这 种 方 
法 ， 因 为 这 个 操作 在 复制 文件 的 过 程 中 会 忽略 文件 的 状 
aS: 用 户 可 能 在 memstore 的 刷 写 操作 过 程 中 复制 数据 ， 这 
样 会 导致 数据 中 混杂 着 新 旧 多 种 文件 。 


这 个 操作 也 会 导致 用 户 忽略 在 内 存 中 还 没有 被 刷 写 的 
数据 。 低 层次 的 复制 操作 只 操作 那些 已 经 持久 化 的 数据 。 
一 种 解决 办 法 是 茶 止 对 这 张 表 的 写 操作 ， 明 确 地 刷 写 这 张 
表 的 内 存 ， 然 后 再 复制 HDFS 文 件 。 


即使 使 用 这 种 方法 ， 用 户 仍 需要 仔细 监测 刷 写 操作 执 
行 到 的 位 置 ， 这 里 可 能 会 出 现 问题 ， 用 户 需 要 特别 注意 。 


12.2.2 CopyTable 工 具 


男 一 个 工具 是 CopyTable， 这 个 工具 主要 被 用 来 引导 集群 的 复制 。 
用 户 可 以 使 用 该 工具 将 一 张 已 经 存在 的 表 从 主 集群 复制 到 从 集群 。 下 面 
是 该 工具 的 命令 行 选 项 : 











$ hadoop jar $HBASE_HOME/hbase-0.91.0-SNAPSHOT.jar copytable 


Usage: CopyTable [--rs.class=CLASS] [--rs.impl=IMPL] [--starttime=X] 


[--endtime=Y] [--new.name=NEW] [--peer.adr=ADR] < tablename> 


Options: 
rs.class hbase.regionserver.class of the peer cluster 
specify if different from current cluster 
rs.impl hbase.regionserver.impl of the peer cluster 


starttime beginning of the time range 
without endtime means from starttime to forever 


endtime end of the time range 
new.name new table's name 
peer.adr Address of the peer cluster given in the format 
hbase. zookeeer.. quorum: hbase. zookeeper.client.port:zookeeper.znode.paren 
t 
families comma-seperated list of families to copy 
Args: 


tablename Name of the table to copy 


Examples: 

To copy ‘TestTable' to a cluster that uses replication for a 1 hour windo 
w: 

$ bin/hbase org.apache.hadoop.hbase.mapreduce.CopyTable \ 

--rs.class=org.apache.hadoop.hbase.ipc.ReplicationRegionInterface 

--rs.impl=org.apache.hadoop.hbase.regionserver.replication. Replicat ion 
RegionServer 

--Starttime=1265875194289 --endtime=1265878794289 

--peer.adr=server1, server2,server3:2181:/hbase TestTable 








EHME A a MIE HA AR A IR E 
目 己 的 复制 过 程 。 用 法 输出 信息 也 包含 参数 说 明 ， 你 可 能 已 经 注意 到 了 
开始 和 结束 时 间 选 项 ， 用 户 可 以 参照 全 文 提 到 的 导出 /导入 工具 中 相同 
参数 的 用 法 来 使 用 这 两 个 参数 ， 


此 外 ， 用 户 可 以 使 用 families 参数 来 限制 所 需 复 制 列 族 的 数量 。 
ae el 下 面 是 在 同一 个 集群 中 复制 表 的 
示例 : 








$ hadoop jar $HBASE_HOME/hbase-@.91.@-SNAPSHOT.jar copytable \ 


--new.name=testtable3 testtable 


11/06/26 15:20:07 INFO mapreduce.TableOutputFormat: Created table instance 
for testtable3 

11/06/26 15:20:07 INFO mapred.JobClient: Running job: job 201106261454 00 
63 

11/06/26 15:20:08 INFO mapred.JobClient: map 0% reduce 0% 

11/06/26 15:20:19 INFO mapred.JobClient: map 6% reduce 0% 

11/06/26 15:20:22 INFO mapred.JobClient: map 12% reduce 0% 

11/06/26 15:20:25 INFO mapred.JobClient: map 18% reduce 0% 

11/06/26 15:20:28 INFO mapred.JobClient: map 25% reduce 0% 

11/06/26 15:20:31 INFO mapred.JobClient: map 31% reduce 0% 

11/06/26 15:20:34 INFO mapred.JobClient: map 37% reduce 0% 

11/06/26 15:20:37 INFO mapred.JobClient: map 43% reduce 0% 

11/06/26 15:20:40 INFO mapred.JobClient: map 50% reduce 0% 

11/06/26 15:20:43 INFO mapred.JobClient: map 56% reduce 0% 

11/06/26 15:20:46 INFO mapred.JobClient: map 62% reduce 0% 

11/06/26 15:20:49 INFO mapred.JobClient: map 68% reduce 0% 

11/06/26 15:20:52 INFO mapred.JobClient: map 75% reduce 0% 

11/06/26 15:20:55 INFO mapred.JobClient: map 81% reduce 0% 

11/06/26 15:20:58 INFO mapred.JobClient: map 87% reduce 0% 

11/06/26 15:21:01 INFO mapred.JobClient: map 93% reduce 0% 

11/06/26 15:21:04 INFO mapred.JobClient: map 100% reduce 0% 

11/06/26 15:21:06 INFO mapred.JobClient: Job complete: job_201106261454 0 
003 

11/06/26 15:21:06 INFO mapred.JobClient: Counters: 5 

11/06/26 15:21:06 INFO mapred.JobClient: Job Counters 


11/06/26 15:21:06 INFO mapred.JobClient: Launched map tasks=32 
11/06/26 15:21:06 INFO mapred.JobClient: Data-local map tasks=32 
11/06/26 15:21:06 INFO mapred.JobClient: Map-Reduce Framework 
11/06/26 15:21:06 INFO mapred.JobClient: Map input records=0 
11/06/26 15:21:06 INFO mapred.JobClient: Spilled Records=0 
11/06/26 15:21:06 INFO mapred.JobClient: Map output records=0 











复制 过 程 还 需要 保证 目标 表 已 经 存在 : 可 以 使 用 Shel 来 获得 原 表 的 
定义 ， 并 且 使 用 这 个 定义 来 创建 目标 表 。 用 户 可 以 省 上 略 那 些 没有 包含 在 
复制 命令 中 的 列 族 。 


示例 使 用 了 一 个 可 选 参数 new.name ， 它 允许 你 指 HE re TAT Be 
始 表 名 的 新 表 名 。 复 制 的 表 会 存储 在 同一 个 集群 中 ， 这 是 由 于 没有 使 





用 peer.adr BA. 
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注意， 上 述 两 种 工具 只 提供 行 级 别 的 原子 性 。 换 名 
话说 ， 如 果 用 户 导出 或 复制 的 表 在 操作 过 程 中 被 别 的 客户 端 
修改 过 ， 那 么 用 户 就 无 法 辨别 出 哪些 数据 被 复制 到 了 新 的 地 
ie 





尤其 是 当 处 理 多 张 表 的 时 候 ， 例 如 ， 存 在 二 级 索引 的 情 
况 ， 用 户 需要 保证 在 客户 端 已 经 复制 了 一 个 所 有 表 的 一 致 性 
视图 。 一 种 解决 方法 是 使 用 开始 和 结束 时 间 参 数 。 这 样 用 户 
可 以 执行 一 个 只 处 理 最 近 更 新 数据 的 二 次 更 新 作业 。 


12.2.3 WEE 


HBase 拥 有 多 种 导入 数据 的 方法 。 最 直接 的 方法 有 两 种 ， 一 种 是 在 
MapReduce 作 业 中 使 用 TableOutputFormat 类 〈 见 第 7 章 ) ， 另 一 种 是 
Sep 但 是 ， 这 两 种 方法 并 不 一 定 是 最 有 效率 的 方 
法 。 


另 一 种 高 效 导 入 大 量 数据 的 方法 是 批量 导入 (bulkimport) 。 批 量 
导入 使 用 一 个 MapReduce 作 业 将 表 数 据 输出 为 HBase 内 部 数据 格式 ， 然 
后 直接 将 数据 文件 载 入 到 正在 执行 的 集群 中 。 使 用 批量 导入 特性 比 只 使 
用 HBase API 占 用 更 少 的 CPU 和 网 络 资源 。 
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导入 的 数据 可 能 会 非常 大 。 这 会 给 集群 带 来 额外 的 负载 ， 而 
且 有 可 能 会 使 集群 过 载 。 批 量 导 入 束 是 一 种 通过 避免 region 
服务 器 扰动 来 解决 这 个 问题 的 方法 。 


1. 批量 导入 过 程 
HBase 批 量 导 入 过 程 包含 两 个 步 又 : 
准备 数据 
批量 导入 的 第 一 步 是 利用 一 个 使 用 HFileOutputFormat 的 


MapReduce 作 业 来 生成 HBase 数 据 文 件 。HFileOutputFormat 会 直接 将 
ee 的 内 部 存储 格式 ， 这 样 它们 可 以 被 高 效 地 载 入 到 集群 





为 了 高 效 运行 此 功能 ， 必 须 配 置 HFileOutputFormat 使 得 它 输出 
的 HFile 能 够 适合 单一 的 region: 所 有 输出 需要 被 载 入 到 HBase 的 作业 
都 会 使 用 Hadoop 的 TotalOrderPartitioner 类 来 进行 分 区 ， 该 类 会 将 
map 输 出 的 数据 划分 到 键 空间 不 相交 的 区 间 中 ， 这 些 区 间 与 表 的 region 
范围 相对 应 。 


HFileOutputFormat 包含 一 个 简便 的 函 
数 configureIncrementalLoad() ， 这 个 方法 会 基于 当前 表 的 region 的 
边界 自动 配置 TotalOrderPartitioner 。 


载 入 数据 


在 使 用 HFileOutputFormat 准备 好 数据 之 后 ， 我 们 可 以 使 
用 completebulkload 工具 将 数据 载 入 到 集群 中 。 它 会 遇 历 一 过 准备 好 
的 数据 ， 决 定 每 一 个 文件 属于 哪个 region。 然 后 与 接收 这 些 HFile 文 件 的 
region 服 务 器 进行 交互 ， 移 动 文件 到 其 存储 目录 ， 最 后 使 得 客户 端 可 以 
使 用 这 些 数据 。 


如 果 region 的 边界 在 批量 导入 或 准备 数据 和 完成 之 间 的 过 程 中 有 改 
“J, completebulkload 工具 会 自动 地 根据 新 的 边界 将 这 些 数据 文件 进 
行 拆 分 。 这 一 步 并 不 是 最 高 效 的 ， 用 户 需 要 减少 准备 数据 和 载 入 数据 之 











间 的 延迟 ， 特 别 是 当 还 有 其 他 客户 端 在 同时 使 用 其 他 方法 导入 数据 时 。 


这 个 原理 利用 了 服务 器 上 已 经 存在 的 合并 读 取 (merge read) 方式 
来 扫 摘 memstore， 以 及 硬盘 上 《更 确切 地 说 是 文件 系统 中 的 ) 的 存储 文 
件 来 获取 整 行 的 KeyValue 。 将 新 生成 的 批量 导入 的 文件 添加 进来 并 加 
以 处 理 ， 这 与 内 存 文 件 刷 写 会 生成 新 的 存储 文件 的 过 程 相似 。 


更 重要 的 是 ， 所 有 文件 都 是 按照 其 对 应 的 KeyValue 实例 所 拥有 的 
时 间 惟 来 排序 的 〈 见 8.4 节 ) 。 换 句 话 说， 用 户 可 以 批量 导入 新 旧 的 版 
本 的 列 值 ， 而 region 服 务 串 会 将 这 些 文件 恰当 地 进行 排序 。 最 终 的 结 
是 ， 用 户 即 刻 获 得 了 所 存储 的 行 的 一 致 并 连贯 的 视图 。 


2. 使 用 importtsv 工具 准备 数据 


HBase 发 行 了 一 个 命令 行 工 具 importtsv ， 这 个 工具 可 以 使 用 制 表 
符 拆 分 数据 〈 简 称 TSV) 格式 的 文件 执行 批量 导入 。 访 工具 默认 使 用 
HBase 的 put() API 一 行 一 行 地 加 HBase 插 入 数据 。 


用 户 也 可 以 使 用 importtsv.bulk.output 选项 ， 这 样 Iimporttsv 
工具 会 使 用 HFileOutputFormat 来 生成 文件 。 然 后 这 些 文件 可 以 被 批 
量 载 入 到 HBase 中 去 。 用 户 可 以 无 参数 地 运行 这 个 工具 来 打印 出 简短 的 
用 法 信息 : 





$ hadoop jar $HBASE_HOME/hbase-0.91.0-SNAPSHOT.jar importtsv 


Usage: importtsv -Dimporttsv.columns=a,b,c < tablename> < inputdir> 
Imports the given input directory of TSV data into the specified table. 


The column names of the TSV data must be specified using the -Dimporttsv. 


columns 
option. This option takes the form of comma-separated column names,where e 


ach 
column name is either a simple column family,or a columnfamily:qualifier. 


The 
special column name HBASE ROW KEY is used to designate that this column sh 


ould 
be used as the row key for each imported record. You must specify exactly 


one 


column to be the row key,and you must specify a column name for every colu 
mn 
that exists in the input data. 


By default importtsv will load data directly into HBase. To instead genera 
te 
HFiles of data to prepare for a bulk data load,pass the option: 
-Dimporttsv.bulk.output=/path/for/output 
Note: if you do not use this option,then the target table must already 
exist in HBase 


Other options that may be specified with -D include: 
-Dimporttsv.skip.bad.lines=false - fail if encountering an invalid line 
'-Dimporttsv.separator=|' - eg separate on pipes instead of tabs 
-Dimporttsv.timestamp=currentTimeAsLong - use the specified timestamp fo 

r the import 
-Dimporttsv.mapper.class=my.Mapper - A user-defined Mapper to use instea 

d\ 


of org.apache.hadoop.hbase.mapreduce. TsvImporterMapper 





以 上 使 用 信息 解释 得 非常 详尽 ， 所 以 只 需要 简单 地 运行 这 个 工具 并 
指定 要 求 的 选项 即 可 。 它 会 局 动 一 个 从 HDFS 中 读 取 数据 的 作业 ， 并 准 
备 好 批量 导入 所 需 的 存储 文件 。 


3. 完全 批量 载 入 工具 


_ 无 论 是 使 用 带 importtsv.bulk.output 选项 的 Importtsv LA, 
其 他 使 用 HFileOutputFormat 的 MapReduce 作 业 的 工具 ， 它 们 都 
eed oe 将 数据 导入 到 正在 运行 的 集群 中 。 


而 completebulkload 工具 只 需要 用 户 提供 importtsyv 的 输出 路 
径 或 MapReduce 作 业 的 输出 路 径 ， 同 时 还 需要 导入 的 表 名 。 例 如 : 








$ hadoop jar $HBASE_HOME/hbase-0.91.0-SNAPSHOT.jar completebulkload \ 


-conf ~/my-hbase-site.xml /user/larsgeorge/myoutput mytable 


如 果 配 置 文件 没有 包含 在 CLASSPATH 中 ， 用 户 可 以 使 用 可 选 -conf 
config-file 参数 来 指定 一 个 包含 合适 的 HBase 参 数 的 文件 。 此 外 ， 当 
不 通过 HBase 管 理 ZooKeeper 时 ，CLASSPAT H 必须 包含 拥 有 ZooKeeper 配 
置 文件 的 文件 夹 。 


全 |， 
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~ 如 果 HBase 不 包含 目标 表 ， 该 工具 会 自动 为 用 户 创 
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completebulkload 工具 执行 得 非常 快 ， 这 之 后 集群 就 可 以 看 到 这 
些 新 数据 了 。 


4. 高 级 用 法 


虽然 importtsyv 在 很 多 情况 下 都 非常 有 用 ， 但 是 高 级 用 户 可 能 会 希 
望 自己 编写 程序 来 生成 数据 ， 或 者 导入 其 他 格式 的 数据 。 为 了 实现 这 
些 ， 用 户 需要 仔细 阅读 ImportTsv.java 类 ， 并 查 
看 HFileOutputFormat 的 JavaDoc。 


导入 过 程 中 的 批量 载 入 也 可 以 使 用 用 户 所 写 的 代码 : Æ 
看 LoadIncrementalHFiles 类 来 获取 更 多 的 信息 。 











12.2.4 复制 


HBase 复 制 功能 的 架构 已 经 在 8.8 节 详细 讨论 过 了 。 下 面 我 们 来 看 一 
下 如 何在 两 个 集群 之 间 开 启 表 的 复制 功能 。 








首先 ， 修 改 conf 文件 夹 中 的 hbase-site.xml 配置 文件 以 为 整个 集群 打 
开 该 功能。 


< configuration> 

< property> 
< name>hbase. zookeeper.quorum< /name> 
< value>zk1.foo.com, zk2.fo0o0.com,zk3.foo.com< /value> 
/property> 
property> 
< name>hbase.rootdir< /name> 
< value>hdfs://master.foo.com:8020/hbase< /value> 
/property> 
property> 
< name>hbase.cluster.distributed< /name> 
< value>true< /value> 
/property> 

< property> 


< name>hbase.replication< /name> 
< value>true< /value> 


/property> 


< /configuration> 





这 个 示例 增加 了 一 个 新 的 属性 hbase.rep1lication ， 当 该 属性 设 
为 true 时 ， 复 制 支持 就 会 启用 。 它 只 打开 了 所 必需 的 底层 功能 。 换 名 
话说 ， 用 户 不 会 在 集群 上 看 到 任何 设置 和 功能 上 的 区 别 。 用 户 还 需要 复 
制 修改 过 的 配置 文件 到 集群 上 所 有 的 机 器 ， 并 且 重 启 所 有 服务 器 。 


现在 ， 用 户 可 以 修改 已 存在 的 表 了 用户 需要 先 将 该 表 禁 用 ) ， 或 
者 创建 一 个 复制 范围 (replication scope) 被 设置 为 1 的 表 〈 也 可 以 查看 














5.1.3 节 中 该 属性 的 值 范围 ) : 


hbase(main):001:@> create 'testtable1', 'colfam1' 


hbase(main):002:@> disable 'testtable1' 


hbase(main):003:@> alter 'testtable1',NAME => 'colfam1',\ 


REPLICATION_SCOPE => '1' 


hbase(main):004:@> enable 'testtable1' 


hbase(main):005:@> create 'testtable2',{ NAME => 'colfam1',\ 


REPLICATION_SCOPE => 1} 





设置 好 范围 ， 为 主 集群 作为 复制 源 做 好 准备 。 现 在 ， 添 加 从 《也 叫 
对 等 ) 集群 ， 并 局 动 复 制 : 


hbase(main):006:0> add_peer '1', 'slave-zk1:2181:/hbase' 


hbase(main):007:0> start_replication 





第 一 条 命令 是 为 从 集群 设置 ZooKeeper 集 群 信息 ， 这 样 使 得 修改 可 
以 被 同步 到 从 集群 上 。 第 二 条 命令 真正 地 将 修改 过 的 记录 发 布 到 从 集群 
上 。 为 了 使 工作 能 够 按照 预期 进行 ， 用 户 必 须 保 证 已 经 在 从 集群 上 创建 
同 的 表 的 副本 : 表 可 以 是 空 的 ， 但 是 必须 有 相同 的 表 的 模式 和 





wW 1 

一 一 用户 可 以 使 用 运行 两 个 本 地 集群 的 方法 (这 部 分 内 
容 在 12.3.1 节 进行 了 详细 描述 ) 来 进行 开发 和 原型 设计 ， 并 将 
第 二 个 本 地 集群 配置 为 从 集群 的 地 址 。 


hbase(main):006:0> add_peer '1', 'localhost:2181:/hbase-2' 





需要 修改 第 二 个 集群 的 conf 2 目录 文件 严 下 jhbase-site.xml 
中 的 一 个 参数 : 


< property> 
< name>hbase.replication< /name> 
< value>true< /value> 


< /property> 





增加 这 个 属性 可 以 使 该 集群 作为 从 集群 


由 于 复制 功能 已 经 局 用 ， 用 户 可 以 在 主 集 群 上 增加 数据 ， 然 后 过 一 
会 ， 用 户 就 能 够 在 从 集群 上 相同 名 字 的 表 中 看 到 这 些 数据 。 


从 集群 已 经 不 需要 再 做 进一步 修改 了 。 从 集群 上 的 复制 功能 使 用 普 
通 的 客户 端 API 来 执行 局 部 数据 修改 。 移 除 从 集群 并 停止 复制 可 以 使 用 
相反 的 命令 来 完成 : 





hbase(main):008:0> stop_replication 


hbase(main):009:0> remove_peer '1' 











需要 注意 一 点 是 ， 俘 止 复 制 仍 会 完成 所 有 已 在 队列 里 的 修改 的 复 





制 ， 但 是 之 后 所 有 的 处 理 都 被 俘 目 了。 


最 后 ， 当 只 有 几 行 数据 时 ， 用 户 可 以 在 Shell 中 碍 看 并 简单 验证 两 个 
集群 上 复制 的 数据 的 正确 性 ， 但 是 一 个 系统 级 的 比较 需要 消耗 更 多 的 计 
算 量 。 这 也 是 提供 Verify Replication 工 具 的 原因 ， 用 户 可 以 通过 pnadoop 
jar 命令 调用 verifyrep 来 执行 : 

















$ hadoop jar $HBASE_HOME/HBase-@.91.0-SNAPSHOT. jar verifyrep 


Usage: verifyrep [--starttime=X] [--stoptime=Y] [--families=A] < peerid> 
< tablename> 


Options: 
starttime beginning of the time range 
without endtime means from starttime to forever 
stoptime end of the time range 
families comma-separated list of families to copy 


Args: 
peerid Id of the peer used for verification,must match the one give 
n 
for replication 
tablename Name of the table to verify 


Examples: 

To verify the data replicated from TestTable for a 1 hour window with pee 
r #5 

$ bin/HBase org.apache.hadoop.HBase.mapreduce.replication.VerifyRepli ca 
tion \ 

--Starttime=1265875194289 --stoptime=1265878794289 5 TestTable 





该 命令 必须 在 主 集群 上 执行 ， 并 且 需 要 提供 从 集群 的 ID (建立 复制 
流 时 提供 的 ) 和 表 名 。 其 他 选项 可 指定 时 间 范 围 和 列 族 。 


12.3 ”额外 的 任务 


除了 运 维 任务 和 数据 任务 ， 我 们 还 有 额外 的 任务 用 于 设置 和 运行 测 
试 或 生产 的 HBase 集 群 。 我 们 将 在 下 面 的 章节 讨论 额外 的 任务 。 


12.3.1 集群 共存 


为 了 训 试 ， 让 两 个 不 同 的 HBase 实 例 运 行 在 同一 个 物理 机 器 上 是 非 
e ae SHP in BEEF ALE iit h BUGS HRA RNY 
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> | 不 推荐 在 分 布 式 集群 上 运行 多 个 HBase 实 例 ， 包 括 
其 任何 组 件 ， 这 样 是 未 经 过 测试 的 。 任 何 HBase 进 程 都 不 可 以 
在 生产 环境 中 共享 同一 个 服务 器 ， 而 且 这 也 不 是 它 的 设计 的 


一 部 分 。 





假设 按照 第 2 章 所 说 的 ， 安 装 了 一 个 本 地 的 HBase， 并 且 运 行 在 单机 
模式 下 ， 用 户 可 以 先 按照 如 下 方法 来 复制 配置 文件 夹 : 


$ cd $HBASE_HOME 


$ cp -pR conf conf.2 





下 一 步 是 修改 新 的 conf 2 目录 中 的 hbase-env.sh 文件 。 


# Where log files are stored. $HBASE_HOME/logs by default. 
export HBASE_LOG_DIR=${HBASE_HOME}/logs.2 


# A string representing this instance of hbase. $USER by default. 


export HBASE_IDENT_STRING=${USER}.2 








这 样 可 以 保证 没有 重复 的 本 地 文件 名 。 然 后 用 户 还 需要 修改 hbase- 
site.xml 文件 : 





< configuration> 
< property> 
< name>hbase. zookeeper.quorum< /name> 
< value>localhost< /value> 
< /property> 
< property> 


< name>hbase.rootdir< /name> 


< value>hdfs://localhost :8020/hbase-2< /value> 


< /property> 


入 


入 


property> 


< name>hbase.tmp.dir< /name> 


< value>/tmp/hbase-2-${user.name}< /value> 


/property> 

property> 

< name>hbase.cluster.distributed< /name> 
< value>true< /value> 

/property> 

property> 


< name>zookeeper.znode.parent< /name> 


< value>/hbase-2< /value> 


/property> 


property> 


< name>hbase.master.port< /name> 


< value>60100< /value> 


< /property> 


< property> 


< name>hbase.master.info.port< /name> 


< value>60110< /value> 


< /property> 


< property> 


< name>hbase.regionserver.port< /name> 


< value>60120< /value> 


< /property> 


< property> 


< name>hbase.regionserver.info.port< /name> 


< value>60130< /value> 


< /property> 


< /configuration> 








加 粗 的 属性 包含 所 要 求 的 修改 。 用 户 需 要 给 两 个 集群 分 配 不 同 的 站 
H, 人 操作 第 二 个 集群 需要 指明 新 的 
配置 路 径 : 





$ HBASE_CONF_DIR=conf.2 bin/start-hbase.sh 


$ HBASE_CONF_DIR=conf.2 ./bin/hbase shell 


$ HBASE_CONF_DIR=conf.2 ./bin/stop-hbase.sh 


第 一 条 命令 局 动 第 二 个 本 地 集群 ， 中 间 那 条 命令 局 动 了 一 个 Shell 并 
连接 到 了 集群 上 ， 最 后 一 条 命令 停止 了 集群 。 


12.3.2 i BER 


HBase 进 程 在 启动 时 会 绑 定 到 两 个 不 同 的 端口 : 一 个 是 用 于 处 理 
RPC 的 端口 ， 另 一 个 是 用 于 Web UI 的 端口 。 这 适用 于 master 和 每 一 个 
region 服 务 器 进程 。 由 于 用 户 在 每 台 服 务 器 上 只 运行 一 种 进程 类 型 ， 所 
以 用 户 只 需要 在 每 台 服 务 器 上 考虑 分 配 两 个 端口 给 HBase， 除 非 其 运行 
在 一 个 非 分 布 式 集群 上 。 表 12-2 列 出 了 所 有 的 默认 端口 。 


表 12-2 HBase 守 护 进 程 使 用 的 默认 端口 


























master 用 来 监听 客户 端 请 求 的 RPC 端 口 ， 可 以 使 用 hbase.master.port 
属性 来 配置 











master 进 程 用 来 监听 Web UI 的 端口 ， 可 以 使 
用 hbase.master.info. port 属性 来 配置 
































region 服 务 器 用 来 监听 客户 端 请 求 的 RPC 端 口 ， 可 以 使 用 hbase.reg 
ionserver .port 属性 来 配置 

















region 服 务 器 进程 用 来 监听 Web UI 请 求 的 端口 ， 可 以 使 
用 hbase. regionserver.info. port 属性 来 配置 





此 外 ， 如 果 用 户 想 配置 一 个 防火 增 ， 需 要 保证 防火 墙 允许 访问 


Hadoop 子 系统 使 用 的 端口 ， 例 如 ，MapReduce 和 HDFS 的 端口 ， 以 使 
HBase 守 护 进程 可 以 访问 它们 乌 。 


12.4 改变 日 志 级 别 


HBase 进 程 默认 的 日 志 级 别 为 DEBUG ， 这 在 安装 和 设计 阶段 是 非常 
有 用 的 。 它 可 以 让 用 户 在 系统 出 现 问题 的 时 候 在 日 志文 件 中 搜寻 到 更 多 
信息 ， 这 部 分 内 容 在 12.5.2 节 中 已 经 讨论 过 了 。 


在 生产 环境 中 ， 用 户 可 以 将 日 志 级 别 降低 ， 例 如 ， 降 低 到 INFO 
或 WARN 级 别 。 这 个 操作 可 以 通过 编辑 conf 目录 下 的 log4j.properties 文件 
来 实现 。 下 面 是 一 个 修改 HBase 类 的 日 志 级 别 的 示例 : 





# Custom Logging levels 

log4j . logger.org.apache.zookeeper=INFO 
#log4j.logger.org.apache.hadoop. fs .FSNamesystem=DEBUG 
log4j.logger.org.apache.hadoop.hbase=INFO 


# Make these two classes INFO-level. Make them DEBUG to see more zk debug. 
log4j.logger.org.apache.hadoop.hbase. zookeeper. ZKUtil=INFO 

log4j. logger.org.apache.hadoop.hbase.zookeeper .ZooKeeperWatcher=INFO 
#log4j.logger.org.apache.hadoop.dfs=DEBUG 

# Set this class to log INFO only otherwise its OTT 





si 这 个 文件 需要 被 复制 到 所 有 服务 器 上 ， 然 后 重启 集群 使 得 修改 生 


如 果 想 要 暂时 改变 日 志 级 别 ， 或 者 修改 了 属性 文件 但 是 不 想 立 即 重 
启 ， 用 户 可 以 使 用 Web UI 和 其 日 志 级 别 页 面 。 这 部 分 内 容 在 6.5.3 节 中 已 
经 讨论 过 了 。 由 于 UI 日 志 级 别 修改 只 4 作用 于 载 入 该 页 面 的 服务 器 ， 所 以 
需要 分 别 修改 集群 中 每 一 人 台 服 务 器 的 日 志 级 别 。 


12.5 ”故障 人 处理 


a 内 容 主要 儿 助 用 户 处 理 故 障 集群 ， 以 及 修复 运行 不 正常 工作 的 


12.5.1 HBase Fsck 





HBase 有 一 个 叫做 hbck 的 工具 ， 其 功能 由 HBaseFsck 类 来 实现 。 它 
提供 了 许多 可 以 影响 其 行为 的 命令 行 参 数 。 用 户 可 以 使 用 -h 参数 来 查 
看 帮助 。 


$ ./bin/HBase hbck -h 


Unknown command line option : -h 
Usage: fsck [opts] 
where [opts] are: 
-details Display full report of all regions. 
-timelag {timeInSeconds} Process only regions that have not experienc 


ed 
any metadata updates in the last {{timeInSeconds} seconds. 
-fix Try to fix some of the errors. 
-sleepBeforeRerun {timeInSeconds} Sleep this many seconds before check 
ing 
if the fix worked if run with -fix 
-summary Print only summary of the tables and status. 





在 运行 hbck Ih}, details 参数 可 以 打印 出 更 为 详细 的 输出 ， 
e 参数 打印 出 的 输出 较 少 。 当 没有 参数 时 ， 则 按 正 常情 况 打印 
输出 ， 例 如 : 





$ ./bin/HBase hbck 


Number of Tables: 46 
Number of live region servers: 19 
Number of dead region servers: 6 
Number of empty REGIONINFO QUALIFIER rows in .META.: @ 
Summary: 
-ROOT- is okay. 
Number of regions: 1 
Deployed on: host1.foo.com:60020 
.META. is okay. 
Number of regions: 1 
Deployed on: host4.foo.com:6002@ 
testtable is okay. 
Number of regions: 15 
Deployed on: host7.foo.com:6002@ host14.foo.com:60020 


testtable2 is okay. 
Number of regions: 1 
Deployed on: host11.foo.com: 60020 
@ inconsistencies detected. 
Status: OK 





其 他 参数 如 timelag 和 sleepBeforeRerun 在 使 用 说 明 中 都 有 详细 
介绍 。 它 们 可 以 用 于 检查 数据 的 子 集 ， 也 可 以 通过 延迟 再 次 检查 的 时 间 
来 报告 任何 剩 下 的 问题 。 


一 旦 开始 运行 ，hbck 工具 会 扫描 .META. 表 来 收集 其 持 有 的 所 有 相 
关 信 息 。 它 还 会 扫描 HBase 使 用 的 HDFS 中 的 root 目 录 。 然 后 它 会 比较 收 
集 的 信息 来 报告 相关 的 一 致 性 和 完整 性 问题 。 


一 致 性 检查 
一 致 性 检查 以 region 为 单位 。 它 会 检查 region 是 否 同时 存在 
于 .META. 表 和 HDFS 中 ， 并 检查 其 是 否 只 被 指派 给 唯一 的 region 服 务 
T 
完整 性 检查 
完整 性 检查 以 表 为 单位 。 它 将 region 与 表 细 节 信 息 来 进行 比较 以 找 


到 缺失 的 region。 同 时 也 会 检查 region 起 止 键 范围 中 的 空洞 或 重 登 情 
况 。 











Fix 选项 可 以 用 来 修复 以 上 这 些 情况 。 随 着 时 间 的 推移 ， 这 个 功能 
将 被 继续 增强 ， 更 多 的 问题 也 将 被 修复 。 在 本 书写 作 期 间 ， 可 以 修复 的 
问题 如 下 。 

。 如 果 .META. 没有 被 分 配 ， 则 会 将 其 分 配 到 一 个 新 的 服务 器 上 。 

。 如 果 .META. 被 分 配 到 多 个 region 服 务 器 上 ， 其 会 被 重新 分 配 。 

e 如 果 用 户 表 的 region 没 被 分 配 ， 则 其 会 被 重新 分 配 。 

e 如 果 用 户 表 的 region 被 分 配 到 多 个 region 服 务 器 上 ， 其 会 被 重新 分 


配 。 
。 如 果 它 当前 所 处 的 服务 器 与 .META. 表 中 所 述 的 服务 器 不 一 致 ， 重 
新 分 配 用 户 表 region 到 新 的 服务 器 上 。 


eh, 
RE 用 户 需 要 知道 有 时 hbck 报告 的 不 一 致 问题 只 是 暂时 
的 。 例 如 ， 当 region 在 某 些 日 常 处 理 流程 时 变 为 不 可 用 

IN, hbck 也 会 报告 这 些 不 一 致 状态 。 用 户 可 通过 添 

加 details 参数 来 得 到 更 多 运行 信息 ， 同 时 多 次 运行 这 条 命 
令 来 确定 问题 不 是 暂时 的 。 

















12.5.2 日 志 分 析 


在 少数 情况 下 ， 用 户 需 要 参考 由 多 种 HBase 进 程 创 建 的 日 志文 件 来 
查找 问题 。 日 志文 件 包括 了 许多 信息 ， 一 些 是 打印 的 运行 时 系统 信息 ， 
还 有 一 些 可 能 是 警告 和 错误 信息 。 某 些 信息 只 是 描述 集群 的 暂时 行为 ， 
a 此 外 ， 还 有 一 些 在 进程 结束 时 打印 的 
系统 错误 信息 。 


表 12-3 展 示 了 HBase、ZooKeeper 和 Hadoop 创 建 的 日 志文 件 。user 
字段 在 实际 的 文件 名 中 被 启动 进程 的 用 户 ID 蔡 换 ， 同 时 hostname 被 进 
程 运行 时 的 服务 器 名 蔡 换 。 




















表 12-3 不 同 服务 种 类 创建 的 日 志文 件 





服务 器 类 型 


$HBASE_HOME/logs/HBase-<user>-master-<hostname>.log 





HBase $HBASE_HOME/logs/HBase-<user>-regionserver- 
RegionServer <hostname>.log 

















METRE Oa $HADOOP_HOME/logs/hadoop- <user>-namenode- 
<hostname>.log 

DataNode $HADOOP_HOME/logs/hadoop-<user>-datanode- 
<hostname>.log 

TO en $HADOOP_ HOME/logs/hadoop-<user>-jobtracker- 
<hostname>.log 

TaskTracker $HADOOP_HOME/logs/hadoop- <user> -jobtracker- 
<hostname>.log 


显然 ， 这 些 路 径 可 以 通过 修改 对 应 的 系统 配置 文件 来 进行 修改 。 


当 用 户 分 析 日 志文 件 时 ， 应 当先 从 master 日 志文 件 开始 ， 因 为 它 起 
到 协调 整个 集群 的 作用 。 该 文件 包括 了 负载 均衡 器 (balancer) 在 内 等 
后 台 操 作 的 运行 提示 信息 : 








2011-06-03 09:12:55,448 INFO org.apache.hadoop.HBase.master.Hmaster: balan 
ce \ 

hri=testtable, mykey1, 1308610119005 . dbccd6310dd7326f28ac09b60170a84c. , \ 
src=host1. foo. com, 60020, 1308239280769, dest=host3. foo. com, 60020, 13082392747 
89 


[C SCR 
当 region 拆 分 时 ， 应 当 会 报告 如 下 信息 : 


2011-06-03 09:12:55,344 INFO org.apache.hadoop.HBase.master.ServerManager: 
\ 

Received REGION SPLIT: 

testtable, myrowkey5, 1308647333895. @b8eeffeba8e2168dc7c06148d93dFcF. : 


Daughters; testtable, myrowkey5, 1308647572030.bc7ccQ@055a3a4fd7a5Ff56df6F27a69 
6b., 


testtable, myrowkey9, 1308647572030. 87882799b2d58020990041f588b6b31c. 
from host5.foo.com, 60020, 1308239280769 








大 部 分 日 志 信 息 是 INFO 级 别 的 信息 ， 它 们 很 好 地 描述 了 集群 正在 
进行 的 工作 和 正 处 于 的 状态 。 用 户 可 以 通过 得 看 这 些 信息 回溯 时 间 ， 同 
时 了 解 集群 之 前 在 做 什么 。master 通 常 只 是 简单 有 规律 的 输出 这 些 信 
i 很 可 能 会 发 现 一 些 相同 的 且 不 断 重 复 

ST tax 


如 果 出 现 错误 ， 这 些 模式 将 会 改变 : 日 志 信 息 中 出 现 一 条 NARN 
(warning 的 简写 ) 信息 甚至 ERROR 级 别 的 信息 。 用 户 需 要 找 出 这 些 模 
式 ， 并 在 正常 模式 被 打 断 前 重新 进行 设置 。 














ae 
我 们 在 10.2.5 节 中 介绍 了 一 些 有 用 的 监控 指标 ， 它 
们 是 一 些 系统 级 的 统计 信息 : error 日 志 事 件 监控 指标 给 出 了 
一 张 图 ， 该 图 显示 了 从 什么 时 段 开 始 集群 打印 的 错误 信息 开 
始 增 加 。 找 到 图 中 曲线 开始 上 升 的 时 间 点 ， 并 按 这 个 时 间 点 
查找 输出 日 志 。 





一 旦 用 户 找到 了 开始 输出 ERROR 信息 的 时 间 点 ， 用 户 就 可 以 确定 问 
题 的 根源 了 。 许 多 后 续 的 信息 都 有 附加 的 其 他 损害 : 它们 是 原始 问题 产 
生 的 副作用 。 


并 非 所 有 集群 行为 改变 的 相关 信息 都 使 用 更 高 级 别 的 日 志 打 印 出 。 
下 面 是 一 个 region 状 态 变 化 时 间 过 长 的 日 志 信 息 。 











2011-06-21 09:19:20,218 INFO org.apache.hadoop.hbase.master.Assignmen tMan 
ager: 

Regions in transition timed out: 

testtable, myrowkey123 , 1308610119005. dbccd6310dd7326f28ac@9b60170a84c. 
state=CLOSING, ts=1308647575449 


2011-06-21 09:19:20,218 INFO org.apache.hadoop.hbase.master.Assignment Man 


ager: 

Region has been CLOSING for too long,this should eventually complete or th 
e 

server will expire,doing nothing 





日 志 的 级 别 是 info， 因 为 系统 最 终 < 会 修复 这 个 人 问题 。 但 是 ， 它 也 可 
能 表明 集群 开始 遇 到 了 许多 更 严重 的 问题 ， 如 节点 超载 。 用 户 在 分 析 日 
志 时 ， 需要 确定 正常 工作 模式 被 打 断 的 时 间 点 Te 


— H HAHA sémasterHis, wey Wea Aregionhks a AS 
Ss 使 用 监控 指标 找到 异常 日 志 出 现 的 时 间 点 ， 然 后 开始 仔细 检查 该 服 
AF o 


一 旦 用 户 发 现 错误 信息 ， 使 用 线 上 资源 查找 © 公共 邮件 列表 (S 
见 http://hbase.apache. org/mail-lists.html ) 。 这 些 问题 很 有 可 能 以 前 都 
补 发 现 并 讨论 过 ， 特 别 是 重复 出 现 的 问题 ， 例 如 ， 之 前 提 到 的 服务 器 过 
载 场景 : 甚至 错误 也 有 固定 的 模式 。 


以 下 是 一 个 错误 信息 的 例子 ， 这 个 错误 是 由 于 region 服务 器 在 
ZooKeeper 集 群 中 的 会 话 超时 引起 的 。 














2611-66-69 15:28:34,836 ERROR 
org.apache.hadoop.HBase.regionserver.HregionServer: 
ZooKeeper session expired 


2011-06-09 15:28:34,837 ERROR 
org.apache.hadoop.HBase.regionserver.HregionServer: 
java.io.IOException: Server not running, aborting 








用 户 可 以 在 日 志 中 查询 "ERROR" 和 "aborting" 来 查找 停止 工作 的 
服务 器 出 错 的 原因 。 


12.5.3 ”向 见 问题 
以 下 是 用 户 安装 集群 时 可 能 遇 到 的 稼 见 问题 的 列表 。 





1. 基本 安装 检查 表 


本 节 提 供 了 一 些 用 户 在 启动 HBase 之 后 需要 检查 的 项 目 ， 在 检查 这 
些 项 目 之 后 用 户 可 以 进行 更 深入 的 问题 分 析 和 性 能 调 优 。 


文件 句柄 。 DataNode 进 程 和 HBase 进 程 中 的 ulimit -n 值 应 当 被 
设 得 稍 高 一 些 。 用 户 可 以 使 用 以 下 命令 来 检查 当前 ulimit 设 置 。 


$ cat /proc/< PID of JVM>/limits 











用 户 可 以 看 到 该 限制 值 被 设置 得 较 高 ， 安 全 的 设置 是 32000， 甚 至 
更 多 。2.2.2 节 中 的 “文件 句柄 和 进程 限制 ?详细 说 明了 如 何 配置 这 些 值 。 


DataNode 连 接 数 。 DataNode 需 要 配置 一 个 更 高 的 收发 器 数 日 ， 至 
少 为 4096 或 更 大 。 设 置 为 16000 或 更 大 也 没有 什么 特别 的 坏处 。 参 见 
2.2.2 节 中 的 “DataNode 处 理 线程 数 ”。 


压缩 。 压缩 应 当 一 直 被 打开 ， 除 非 存储 的 信息 已 经 被 预 压 缩 过 
了 。 用 户 可 以 参见 11.3 节 所 讨论 的 细节 内 容 。 保 证 用 户 已 经 检查 了 这 些 








和 条目， 这 样 region 服 务 器 可 以 加 载 对 应 的 压缩 库 。 人 否则 ， 可 能 会 出 现 以 
下 错误 ; 


hbase(main):007:@> create 'testtable',{ NAME => 'colfam1',COMPRESSION => ' 
LZO' } 


ERROR: org.apache.hadoop.hbase.client.NoServerForRegionException: \ 
No server address listed in .META. for region \ 
testtable2, , 1309713043529. 8ec@2f811F75d2178ade98dc4eb4efcFf. 





在 服务 器 的 日 志文 件 中 ， 用 户 可 以 找到 这 个 问题 的 根源 《以 下 显示 
的 内 容 被 简化 了 ， 并 且 通 过 换行 来 保持 文本 宽度 ) : 


2011-07-03 19:10:43,725 INFO org.apache.hadoop.hbase.regionserver.HRegion: 

\ 

Setting up tabledescriptor config now ... 

2011-07-03 19:10:43,725 DEBUG org.apache.hadoop.hbase.regionserver.HRegion 
:\ 

Instantiated testtable, ,1369713643529 .8ec02f811f75d2178ad098dc40b4efcf. 
2011-07-03 19:10:43,839 ERROR org.apache.hadoop.hbase.regionserver.handler 
aX 
OpenRegionHandler: Failed open of region=testtable, ,1309713043529. \ 


8ec62f811f75d2178ad698dc46b4efcf . 
java.io.IOException: java.lang.RuntimeException: \ 
java. lang.ClassNotFoundException: com.hadoop.compression.1zo0.LzoCodec 
at org.apache.hadoop.hbase.util.CompressionTest.testCompression 
at org.apache.hadoop.hbase.regionserver.HRegion. checkCompressionCodecs 





缺少 压缩 库 引 发 了 这 个 错误 ，region 服 务 器 试图 打开 一 个 region， 而 
个 region 中 的 列 族 配 置 使 用 了 LZO 压 缩 。 


垃圾 回收 /内 存 调 优 。 背 用 的 垃圾 回收 配置 我 们 在 11.1 节 中 已 经 讨 
从 过 了 。 如 果 内 存 足 够 ， 用 户 应 当 把 region 服务 占 的 堆 大 小 调整 为 4 








GB， 甚 至 调整 为 8 GB。 推 荐 的 回收 策略 应 当 可 以 应 对 各 种 堆 大 小 。 


如 果 用 户 把 region 服务 器 和 MapReduce Task Tracker 一 起 运行 时 ， 就 
需要 考虑 共享 系统 中 可 能 出 现 的 资源 竞争 。 修 改 mapred-site.xml 文件 来 
减少 region 服 务 器 上 的 计算 单元 位 数 ， 这 样 用 户 可 以 将 更 多 的 内 存 分 配 
给 region 服 务 器 。 预 先 计 算 好 内 存 的 分 配 情况 ， 包 括 Task Tracker, 
region 服 务 器 和 Child Task〈 人 参考 mapred-site.xml 和 hadoop-env.sh 两 个 文 
件 ) 所 需 分 配 的 内 存 ， 以 保证 region 服 务 器 拥有 足够 的 内 存 ， 同 时 也 保 
证 系统 有 足够 的 内 存 ， 参 考 2.2 节 。 如 果 资 源 么 张 ， 用 户 可 能 需要 考虑 
把 MapReduce 与 HBase 分 开 。 


最 后 ，HBase 也 是 CPU 密集 型 的 系统 。 即 使 内 存 足够 也 要 保证 CPU 
不 太 紧 张 ， 使 用 简单 的 命令 ， 例 如 ，top 来 检查 CPU 使 用 率 以 确定 是 否 
需要 减少 计算 单元 ， 或 使 用 第 10 章 中 介绍 的 方法 来 监控 服务 器 状态 。 


2. 稳定 性 问题 


在 极端 情况 下 ，region 服务 右 可 能 会 天 闭 或 意外 结束 。 用 户 可 以 检 
ALL FA. 


。 检查 JVM 版 本 是 否 为 1.6.0u18 (此 版 本 有 已 知 的 问题 影响 HBase 进 
程 ) 


Ba 
e 检查 region 服务 器 日 志 的 最 后 几 行 一 一 其 中 应 当 包 括 aborting 
(abort ) 信息 。 


最 后 有 可 能 出 现 的 情况 是 服务 器 的 ZooKeeper 会 话 过 期 超时 。 如 果 
是 这 种 情况 ， 则 需要 检查 以 下 几 项 。 


ZooKeeper 问 题 。 确 保 ZooKeeper 能 正常 提供 HBase 所 需 的 重要 的 
协调 服务 。 同 时 保证 HBase 进 程 可 以 以 正常 的 频率 与 ZooKeeper 通 信也 十 
分 重要 。 
确定 region 服 务 器 和 ZooKeeper 没 有 开始 使 用 交换 分 区 

如 果 服 务 器 开始 使 用 交换 分 区 Cswap ) ， 请 求 的 某 些 资源 可 能 会 
开始 超时 ， 同 时 region 服 务 句 会 丢失 其 ZooKeeper 会 话 ， 这 会 导致 服务 器 


关闭 。 用 户 可 以 使 用 Ganglia 来 监控 交换 内 存 的 使 用 量 ， 或 在 对 应 的 服务 
需 上 运行 以 下 命令 : 























$ vmstat 20 


当 服 务 器 上 有 负载 时 〈 如 MapReduce 作 业 ) : 确保 “si> 和 “so” 列 为 
0。 这 些 列 反 映 了 交换 出 或 入 的 内 存 情况 。 同 时 运行 以 下 命令 : 





$ free -m 


此 命令 可 以 确保 没有 交换 空间 被 使 用 (交换 列 应 为 0， ， 并 且 考 虑 
调整 内 核 swappiness 值 (/proc/sys/vm/swappiness ) 为 5 或 10。 这 会 
防止 在 总 内 存 分 配 量 小 于 可 用 内 存 时 使 用 交换 区 。 
检查 网 络 问题 


网 络 不 稳定 ，region 服 务 咒 会 丢失 它们 到 ZooKeeper 的 连接 并 停 
ieee. 








KA ZooKeeperWL 4s vb fa Ut 


于 万 不 要 将 ZooKeeper 节 点 部 署 到 TaskTracker 或 DataNode 上 。 在 较 
小 的 集群 中 ， 最 好 将 其 与 NameNode、SecondaryNameNode 或 JobTracker 
部 蜀 到 一 起 〔 例 如 ， 小 于 40 个 节点 的 集群 ，。 其 他 进程 将 加 剧 机 器 的 负 
担 ， 并 导致 ZooKeeper 超 时 。 


最 好 只 布 署 一 个 ZooKeeper 与 NameNode 或 JobTracker 共 享 ， 而 不 是 
将 以 上 三 者 与 其 他 进程 一 起 使 用 。 


检查 垃圾 回收 产生 的 停顿 








检查 region 服务 器 日 志 中 的 "slept "， 例 如 ， 用 户 可 能 会 看 到 "We 
slept 65666ms instead of 16666ms "。 如 果 用 户 看 到 了 这 些 日 
志 ， 则 很 可 能 是 发 生 了 长 时 间 的 垃圾 回收 或 党 重 的 内 存 交 换 。 如 果 是 垃 
圾 回收 停顿 ， 请 参考 本 节 “ 基 本 安装 检查 表 ” 中 的 优化 选项 。 


监控 慢 人 磁盘 


HBase 在 DataNode 中 读 写 块 时 遇 到 了 磁盘 变 慢 的 情况 ， 且 没有 做 特 
别 的 降级 处 理 。 如 果 这 个 块 正好 在 META region 中 ， 则 这 种 情况 有 可 能 
会 影响 整个 集群 的 性 能 ， 并 造成 合并 变 得 缓慢 。 此 时 ， 用 户 需 要 使 用 监 
控 工 具 检 查 重要 的 系统 指标 项 是 否 正 和 常 。 


“Could not obtain block” 错 误 。 通 常情 况 下 这 是 DataNode 接 收 器 的 
问题 ， 在 本 市 的 “基本 安 闭 检 查 表 ”部 分 进行 了 讨论 。 反 复 检查 对 应 的 接 
收费 值 ， 同 时 检查 DataNode 日 志 ， 看 看 其 中 有 没有 "exceeds the 
Limit "项 ， 这 些 日 志 表 明 接 收费 出 现 了 问题 。 检 查 region 服 务 器 和 data 
node 的 日 志 以 发 现 "Too many open files "错误 。 























O 如 之 前 所 写 的 ， 新 启动 的 master 也 没有 页 面 UI 可 用 。 也 就 是 说 ， 访 问 
它 的 “info” 端 口 不 会 得 到 任何 反馈 。 


O 问题 跟踪 系统 中 有 一 项 来 修正 这 个 不 便 之 处 ， 即 今后 这 一 点 会 得 到 
改善 。 不 过 到 目前 为 止 ， 用户 可 以 使 用 脚本 来 从 ZooKeeper 中 读 取 当前 
master 的 主机 名 ， 并 指定 一 个 固定 的 DNS 项 到 当前 的 master 上 。 


@) 注意 ， 有 些 HBase 的 发 行 版 不 要 求 这 些 ， 因 为 它们 不 使 用 start- 
hbase.sh 脚本 。 


O 问题 跟踪 系统 已 经 开启 了 一 项 内 容 ， 该 项 用 来 使 用 一 个 更 现代 的 命 
令 行 解析 参数 。 这 会 影响 未 来 任务 中 的 参数 设 定 方 式 。 


© Hadoop 使 用 相似 的 端口 分 配方 式 ， 但 是 ， 因 为 它 的 进程 种 类 更 多 ， 
所 以 它 占 用 了 更 多 端口 。 请 碍 阅 网 上 的 相关 日 志 内 容 《 
http://www.cloudera.com/blog2009/08/hadoop-default-porte-quick- 
reference/ ) 。 


© 用 户 可 以 使 用 Hadoop 搜 索 服 务 ， 即 http:/search-hadoop.comy 。 











附录 A ”HBase 配 置 属性 


本 节 列 出 了 HBase 支 持 的 所 有 配置 和 默认 属性 ， 以 及 配置 的 使 用 说 
明 。 使 用 配置 时 需要 引用 hbase-site.xml 文件 。 为 了 便于 查找 ， 下 面 列 出 
的 属性 按 字 母 顺序 排列 ， 如 何 调 优 更 重要 的 属性 的 细节 请 看 11.8 节 。 


ool 

«et iF 

一 属性 的 描述 来 自 于 hbase-default.xml 文件 。 为 了 方便 
读者 ， 类 型 、 默 认 值 和 单位 都 已 经 填 加 进去 。 











hbase.balancer.period 

在 master 节 点 中 运行 region 负 载 均 衡 左 的 周期 。 

XAJ; int 

默认 值 : 300000 (5 分 钟 ) 

单位 : 毫秒 

hbase.client.keyvalue.maxsize 

设置 KeyValue 实例 大 小 的 上 限 ， 这 是 为 了 协助 设置 存储 文件 中 单 
个 条 目 存 储 的 上 限 。 这 种 做 法 有 利于 避免 region 过 大 但 不 能 被 拆 分 的 现 
象 ， 最 好 将 其 设置 为 最 大 的 region 大 小 。 如 果 用 户 想 绕 开 这 个 检查 ， 可 
以 将 这 个 参数 设置 为 6 或 更 少 。 

XAJ; int 


默认 值 : 10485760 


单位 : 字 节 
hbase.client.pause 


Ae im Ee EEN Va] ec AY FS (HI get #llregion € w He 7F Be i AE 
待 的 时 间 。 


类 型 : long 
默认 值 : 1000 (1 秒 》 
单位 : 毫秒 





hbase.client.retries.number 


最 大 重 试 次 数 。 例 如 ，region 碍 询 、get 和 update 操 作 等 发 生 错 误 时 
最 大 重 试 的 值 。 


XAJ; int 

默认 值 : 10 

单位 : 数值 

hbase.client.scanner.caching 

SA tei a H next 77 YZ AY BY ee ACE AS HS PF im A FE A ASL 

就 会 向 服务 器 端 发 起 请 求 ， 该 值 就 是 扫描 器 调用 next 方法 一 次 性 
wis Bs rig WR TT AS SAT Bo VATE, Fab ee AR YY Dk EE RE ER 
快 ， 但 同时 依赖 的 内 存 也 就 越 多 ， 并 且 当 请 求 的 数据 没有 在 内 存 中 命中 
的 话 ，next 方法 的 返回 时 间 可 能 会 更 长 ， 因 此 要 避免 这 个 时 间 长 于 扫 
tiias eal} EEN a], Ebase.regionserver.lease.period 。 

XAJ; int 

单位 : 数值 


hbase.client.write. buffer 


HTable P vin Bat XK ERUDITE EEN A i 
多 由 于 服务 器 端 也 需要 消耗 内 存 来 处 理 传 入 的 数据 ， 客 户 端 与 服务 
器 端 都 会 消耗 更 多 的 内 存 一 一 较 大 的 缓冲 区 大 小 有 助 于 减少 RPC 调 用 的 
次 数 。 例 如 ， 服 务 器 端的 内 存 消 耗 大 概 等 于 
hbase.client.write.buffer * 
hbase. regionserver.handler.count 的 值 。 





类 型 : long 

默认 值 : 2097152 

单位 : 字 节 

hbase.cluster.distributed 

HBase 集 群 的 运行 模式 。 该 值 为 false 时 ， 集 群 是 单机 模式 ， 该 值 


为 true 时 ， 集 群 是 分 布 式 模式 。 如 果 将 该 值 设置 为 false ， 则 HBase 与 
ZooKeeper 的 守护 进程 将 运行 在 同一 个 JVM 中 。 











类 型 : boolean 

默认 值 : false 

hbase.coprocessor.master.classes 

HMaster 进 程 默认 使 用 的 协 处 理 器 
是 org.apache.hadoop.hbase.coprocessor.MasterObserver, 在 
这 个 配置 中 协 处 理 器 之 间 用 逗号 分 隅 ， 协 处 理 器 中 实现 的 方法 将 按照 配 
置 顺序 执行 。 用 户 可 以 通过 继承 MasterObserver 来 实现 自己 的 协 处 理 
器， 只 需 将 其 添加 到 HBase 的 classpath 中 ， 并 添加 可 用 的 类 名 。 

类 型 : 类 名 


默认 值 : 无 





hbase.coprocessor.region.classes 


协 处 理 器 之 间 使 用 逗号 分 隔 ， 这 些 协 处 理 器 默认 会 被 所 有 的 表 加 
载 ， 并 按照 顺序 执行 。 用 户 可 以 实现 上 自己 的 协 处 理 器 ， 只 需 将 其 添加 到 
HBase 的 classpath 中 ， 并 在 此 配置 完整 类 名 。 用 户 也 可 以 根据 需求 通过 
设置 HTableDescriptor 来 选择 性 地 加 载 协 处 理 器 。 

类 型 : 类 名 


默认 值 ; 无 


hbase.defaults.for.version.skip 











将 当前 参数 设置 为 true a Lpkithbase.defaults. for. version 
检查 。 将 该 参数 设置 为 true， 其 会 在 上 下 文中 发 挥 作用 ， 这 一 点 不 同 
于 其 在 maven 下 的 使 用 方法 ， 即 在 IDE 中 通过 maven 使 用 HBase。 用 户 也 
可 以 将 该 参数 设置 为 true， 以 避免 因 hbase-default.xml 中 的 版 本 匹配 检 
查 不 通过 而 抛 出 的 运行 时 异常 。 

23874: boolean 

默认 值 : false 

hbase.hash.type 

HashFunction 中 使 用 的 散 列 算法 ， 其 文 持 两 个 值 : murmur 

(MurmurHash) 和 jenkins (JenkinsHash) ， 并 应 用 于 布 隆 过 滤器 

类 型 .string 

默认 值 ，murmur 


hbase.hregion.majorcompaction 


region 中 所 有 HStoreFile 的 major 合 并 的 周期 。 默 认 值 是 1 天 。 将 其 
设置 为 0 可 以 禁用 major 合 并 。 


类 型 : long 


默认 值 ，86400000 (1%) 


单位 ， 毫秒 
hbase.hregion.max.filesize 


HStoreFile 的 最 大 值 。region 中 任何 一 个 列 族 的 存储 文件 如 果 超 
过 了 这 个 上 限 ， 就 会 被 拆 分 成 两 个 region。 


类 型 : long 

默认 值 : 268435456 (256x1024x1024) 

单位 : SAAT 

hbase. hregion.memstore.block.multiplier 

如 果 memstore 达 到 了 
hbase.hregion.memstore.block.memstore 乘 以 hbase.hregion. 
flush.size 的 大 小 ， 束 会 阻 器 更 新 操作 。 这 是 为 了 预防 在 更 新 高 峰 期 
会 导致 的 失控 。 如 果 不 设 上 界 ， 刷 写 的 时 候 会 花费 很 长 的 时 间 来 合并 或 
者 拆 分 ， 最 坏 的 情况 还 会 引发 OOME 措 常 。 

类 型 int 

单位 : 数值 

hbase.hregion.memstore.flush.size 

如 果 内 存 的 大 小 达到 这 个 靖 值 ，memstore 的 数据 就 会 刷 写 到 磁盘 
中 。 这 个 值 由 一 个 线程 每 隔 hbase.server.thread.wakefrequency 
检查 一 次 。 

类 型 : long 


默认 值 : 67108864 (1024x1024x64L ) 


单位 : 字 节 


hbase. hregion.memstore.mslab.enabled 


启动 本 地 memstore 分 配 缓冲 区 (MemStore-Local Allocation Buffer, 
MSLAB) ， 这 个 特性 是 为 了 防止 在 大 量 写 负载 的 时 候 堆 的 碎片 过 多 。 
这 有 利于 降低 Full 垃 圾 回收 的 频率 。 


类 型 : boolean 

默认 值 : true 

hbase.hregion.preclose.flush.size 

当 我 们 要 关闭 一 个 memstore 的 大 小 大 于 这 个 值 的 region 时 ， 此 时 会 
先 运 行 “ 预 刷 写 ” 操 作 ， 清 理 这 个 需要 关闭 的 memstore， 然 后 再 将 这 个 
region 下 线 。 在 关闭 region 时 ， 关 闭 标签 会 触发 一 次 清空 内 存 的 刷 写 。 在 
region 处 于 下 线 过 程 中 时 ， 我 们 就 无 法 再 对 其 进行 任何 写 操 作 了 。 如 采 
一 个 内 存 存 储 中 的 内 容 很 大 ， 刷 写 磁 盘 操 作 会 消耗 很 多 时 间 。 预 刷 写 操 


作 意 味 着 在 region 被 打上 关闭 标签 之 前 ， 会 先 把 写 号 memstore 清 空 。 这 样 
在 最 终 执行 关闭 操作 的 时 候 ， 带 关闭 标签 的 刷 写 操作 会 很 快 。 


类 型 : long 





默认 值 : 5242880 (1024x1024x5) 

单位 : F 

hbase. hstore. blockingStoreFiles 

如 果 一 个 HRegion 中 存储 文件 的 数量 (每 次 MemStore 刷 写 到 磁盘 
便 会 产生 一 个 存储 文件 ) 达到 一 个 国 值 ， 该 HRegion MAEAEA 
问 的 写 请 求 ， 直 到 完成 一 次 存储 文件 的 合并 ， 或 者 阻塞 
到 hbase.hstore.blockingNaitTime 超时 。 

ÆA]; int 

默认 值 : 7， 硬 编码 : - 

单位 : 数值 





hbase.hstore.blockingNaitTime 

当 一 个 HRegion 的 Storefile 数量 达 
到 hbase.hstore.blockingSstoreFiles 设置 的 值 后 ， 其 会 阻塞 客户 
端 写 请 求 。 超 过 当前 设置 的 时 间 时 ， 即 使 合并 没有 完成 ， 也 会 停止 阻塞 
写 请 求 。 

类 型 :int 

默认 值 : 90000 

单位 : 毫秒 

hbase.hstore. compaction.max 

每 次 minor 合 并 处 理 的 最 大 HstoreFile 数目 。 

类 型 : int 

默认 值 : 10 

单位 : 数值 

hbase.hstore.compactionThreshold 

当 一 个 HStore 含有 多 于 这 个 值 的 HStoreFile (每 一 次 memstore 
刷 写 产生 一 个 HStoreFile ) 时 ， 会 执行 一 个 合并 操作 ， 把 这 
个 HStoreFiles 写成 一 个 。 这 个 值 越 大 ， 合 并 消耗 的 时 间 越 长 。 

ÆA]; int 

默认 值 : 3， 硬 编码 : 2 

单位 : 数值 

hbase.mapreduce.hfileoutputformat.blocksize 


MapReduce HfileOutputFormat HL) 直接 写 HFile 格 式 的 存储 文 
件 。 这 个 值 是 HFile 的 blocksize 的 最 小 值 。 通 常 在 HBase 写 HFile 的 时 


候 ，blocksize 是 由 表 模 式 (HColumnDescriptor ) 决定 的 ， 但 是 在 
MapReduce 写 HFile 的 时 候 ， 我 们 无 法 访问 表 模 式 ， 所 以 我 们 从 配置 中 获 
取 blocksize 。 这 个 值 越 小 ， 索 引文 件 就 越 大 ， 随 机 访问 需要 获取 的 数 
据 就 越 小 。 如 果 用 户 的 数据 都 很 小 ， 而 且 需 要 更 快 地 随机 访问 ， 可 以 把 
blocksize 调 低 。 

A]; int 

默认 值 : 65536 

单位 : 字 节 

hbase.master.dns.interface 

当 使 用 DNS 的 时 候 ，master 用 来 上 报 IP 地 址 的 网 络 接口 名 。 

类 型 : string 

默认 值 : “default” 


hbase.master.dns.nameserver 


当 使 用 DNS 的 时 候 ，region 服 务 器 使 用 的 主机 名 或 者 IP 地 址 。master 
用 它 来 确定 需要 进行 通信 的 主机 名 。 


类 型 : string 

默认 值 : “default” 
hbase.master.info.bindAddress 
HBase Master 的 Web UI 绑 定 的 地 址 。 
类 型 : String 

默认 值 : 0.0.0.0 


hbase.master.info.port 


HBase Master 的 Web UI 服 务 端 口 。 如 果 不 想 局 动 UI 实 例 ， 则 可 以 将 
当前 参数 设置 为 -1。 


类 型 :int 

默认 值 : 60010 

单位 : 数值 
hbase.master.kerberos. principal 


例如 ，“hbase/_HOST@EXAMPLE.COM”。HMaster 进 程 运行 时 需 
要 使 用 Kerberos 验 证 名 ， 验 证 名 可 以 在 user/hostname@DOMAIN 中 获 
如 果 “_HOST” 被 用 做 主机 名 ， 在 实际 运行 的 时 候 可 以 使 用 主机 名 来 
nee 


类 型 : string 


RME: 无 








hbase.master.keytab.file 

HMaster 服 务 器 验证 登录 使 用 的 Kerberos keytab 完 整 文 件 路 径 。 
类 型 : string 

默认 值 : 无 


hbase.master. logcleaner.plugins 





WAL/HLog 清 理 程 序 ， 类 名 之 间 以 逗号 分 隔 ， 类 会 被 LogsCleaner 
服务 顺序 调用 ， 以 删除 最 早 的 HLog 文 件 。 用 户 可 以 实现 自己 的 清理 程 
序 ， 只 需要 在 HBase 的 classpath 中 设置 完整 的 类 名 即 可 。 


类 型 : string 


默认 


值 : org.apache.hadoop.hbase.master.TimeToLiveLogCleaner 








hbase.master. logcleaner.ttl 


HLog 文 件 在 .oldlogdir 目录 中 最 长 的 生命 周期 ， 一 旦 超过 这 个 值 ， 
HLog 就 会 被 master 的 线程 清理 掉 。 


类 型 : long 

默认 值 : 600080 

单位 : 毫秒 

hbase.master. port 

HBase Master 应 该 绑 定 的 端口 。 

类 型 : int 

默认 值 : 66666 

单位 ， 数值 

hbase.regions.slop 

HBase 的 负载 均衡 因子 ， 如 果 某 台 region 服 务 器 中 加 载 的 region 数 量 
-Aa 〈 平 均值 x 均 衡 因 了 于 ) ”会 自动 进行 负载 均衡 。 默 认 值 是 

类 型 ; 无 

默认 值 : @.2 

单位 : 浮 点 数 《〈 百 分 比 ) 





hbase.regionserver.class 


要 使 用 的 RegionServer 接 口 ， 主 要 用 于 客户 端 代理 © 以 连接 远程 
region 服 务 器 。 


类 型 ， 类 名 


默认 值 : org.apache.hadoop.hbase.ipc.HRegionInterface 
hbase.regionserver.dns.interface 

region 服 务 器 使 用 DNS 时 用 来 报告 卫 地 址 的 网 络 接口 名 。 

类 型 : string 

默认 值 : “default” 

hbase.regionserver.dns.nameserver 


region 服 务 器 使 用 DNS 时 所 用 的 主机 名 或 者 IP 地 址 ，region 服 务 器 
用 其 来 确定 和 master 进 行 通信 的 主机 名 。 


类 型 : string 

默认 值 : “default” 

hbase.regionserver.global.memstore. lowerLimit 

所 有 region 的 memstore 所 占用 的 内 存 总 和 达到 堆 的 35% 时 ，HBase 会 
强制 刷 写 数据 到 磁盘 中 。 默 认 值 是 堆 的 359%。 当 这 个 值 
Shbase.regionserver.global.memstore.upperLimit 相等 时 ， 更 
新 操作 由 于 memstore 限 制 被 阻塞 时 系统 会 以 尽 可 能 小 的 刷 写 量 刷 写 数 
据 。 

类 型 : float 

默认 值 : 6.35， 硬 编码 : 0.25 

单位 : VARA CAEL) 

hbase.regionserver.global.memstore.upperLimit 


单个 region 服 务 器 的 全 部 memstore 的 最 大 值 。 一 旦 超过 这 个 值 ， 一 
个 新 的 更 新 操作 会 被 挂 起 ， 强 制 执行 刷 写 操作 。 默 认 值 是 堆 的 409%。 


XAJ; float 


默认 值 : 0.4 
单位 : 浮 点 数 《〈 百 分 比 ) 
hbase.regionserver.handler.count 


RegionServer 中 RPC 监 听 器 实例 的 数量 。 对 于 master 来 说 ， 这 个 属性 


是 master 受 理 的 处 理 线程 (handler) 数量 。 


G: 


值 : 


类 型 : int 
默认 值 : 10 
单位 ， 数值 


hbase.regionserver.hlog.reader.impl 
负责 实现 HLog 文 件 读 取 的 类 。 
类 型 : 类 名 


默认 


org.apache.hadoop.hbase.regionserver.wal.SequenceFile 
hbase.regionserver.hlog.writer.impl 

负责 实现 HLog 文 件 写 入 的 类 。 

类 型 : 类 名 


默认 


org.apache.hadoop.hbase.regionserver.wal.SequenceFile 
hbase.regionserver. info.bindAddress 
HBase RegionServer 的 Web UI 的 地 址 。 


类 型 : string 


默认 值 : 0.0.0.0 


hbase.regionserver.info.port 


HBase RegionServer 的 Web UI 的 端口 ， 设 置 为 -1 可 以 禁用 HBase 
RegionServer 的 Web UI. 


XAJ; int 

默认 值 : 60030 

单位 : 数值 

hbase.regionserver.info.port.auto 

该 属性 用 于 指定 Master 或 RegionServer 是 否 要 动态 搜索 一 个 要 绑 定 
的 端口 。 当 hbase.regionserver.info.port 已 经 被 占用 的 时 候 ， 可 
以 搜索 一 个 空闲 的 端口 来 绑 定 。 这 个 功能 在 测试 的 时 候 很 用。 默认 为 
关闭 。 

类 型 : boolean 


默认 值 : false 





hbase.regionserver.kerberos. principal 


例如 ，“hbase/_HOST@EXAMPLE.COM”。HRegionServer 进 程 运 行 
时 需要 使 用 Kerberos 验 证 名 。 验 证 名 应 该 是 user/hostname@DOMAIN 格 
式 。 如 果 “_HOST” 被 用 做 了 主机 名 ， 可 以 使 用 实际 运行 的 主机 名 来 伏 代 
它 。 在 hbase.regionserver.keytab.file 中 一 定 要 指定 默认 的 验证 
ls 


类 型 : string 


默认 值 ， 空 





hbase.regionserver.keytab.file 


HRegionServer 验 证 登录 使 用 的 Kerberos keytab 完 整 文 件 路 径 。 


类 型 : string 
默认 值 ， 空 
hbase.regionserver.1lease.period 


HRegionServer 中 租约 期 限 ， 默 认 值 是 60 秒 。 默 认 情 况 下 ， 客 户 端 
必须 在 这 个 时 间 内 发 送 一 条 信息 来 刷 写 租 约 ， 否 则 视 为 死 掉 。 


类 型 : long 
默认 值 ，60000 (1 分 钟 》 


单位 : E 








hbase.regionserver. logroll.period 


无 论 当 前 日 志 中 有 多 少 记录 ， 达 到 这 个 时 间 间 隅 系统 都 会 自动 深 动 
已 经 提交 的 日 志 。 


类 型 : long 








默认 值 : 3600000 

单位 : 毫秒 

hbase.regionserver.msginterval 

消息 从 RegionServer 发 送 到 HBase Master 的 时 间 间 隔 ， 单 位 是 毫秒 。 
类 型 :int 

默认 值 : 3000 (3 秒 ) 

单位 : 毫秒 

hbase. regionserver.nbreservationblocks 


储备 的 内 存 块 的 数量 。 当 发 生 OOME 异 常 的 时 候 ， 可 以 用 这 些 内 存 


在 region 服 务 器 停止 工作 之 前 做 清理 操作 。 
类 型 . int 
默认 值 : 4 
单位 : 数值 
hbase. regionserver.optionallogflushinterval 


将 HLog 同 步 到 HDFS 的 间隔 。 即 使 HLog 没 有 款 积 到 国 值 ， 但 是 一 
且 到 了 时 间 窗 口 的 末尾 ， 也 会 触发 同步 。 默 认 是 1 秒 ， 单 位 是 塞 秒 。 


类 型 : long 
默认 值 : 1000 (1 秒 ) 


单位 : E 





hbase.regionserver. port 

HBase RegionServer 绑 定 的 端口 。 

类 型 : int 

默认 值 : 60020 

单位 : 数值 

hbase.regionserver.regionSplitLimit 

region hJ BU IK Bik “MEA MANA So XA E—TPregion BU 
的 硬性 限制 ， 但 是 起 到 了 一 定 的 限制 作用 ， 到 了 这 个 阐 值 就 应 该 停止 拆 
分 。 默 认 设 置 为 MAX_INT ， 即 不 阻止 拆 分 。 

类 型 : int 


默认 值 : 2147483647 


单位 : 数值 
hbase.rest.port 

HBase REST 服 务 器 的 端口 。 
类 型 : int 

默认 值 : 8080, 硬 编码 : 9090 
单位 : 数值 
hbase.rest.readonly 


定义 REST 服 务 器 的 运行 模式 。false 意味 着 所 有 的 HTTP 方 法 





(GET ~ PUT ~ POST 和 DELETE ) 都 是 被 允许 的 ，true 意味 着 只 有 GET 
方法 是 被 允许 的 。 


据 。 


类 型 : boolean 
默认 值 : false 
hbase.rootdir 


这 个 目录 是 region 服 务 器 的 共享 目录 ， 用 来 持久 存储 HBase 的 数 
URL 必 须 完全 正确 ， 其 中 包含 了 文件 系统 的 scheme。 例 如 ， 要 表示 


HDFS 中 的 /hbase 目录 ，HDFS 实 例 的 namenode 需 运 行 在 服务 

器 namenode .example.org 的 9090 端 口 ， 则 需要 将 这 个 属性 设置 
为 hdfs://namenode.example.org:9666/hbase 。 默 认 情 况 下 ， 
HBase 是 写 到 /tmp 的 ， 如 果 不 修改 这 个 配置 ， 数 据 会 在 集群 重启 时 丢 


失 。 


类 型 : string 
默认 值 : file:///tmp/hbase-${user.name}/hbase 
hbase.rpc.engine 


org.apache.hadoop.hbase.ipc.RpcEngine 的 实现 ， 用 于 客户 


端 /服务 器 RPC 调 用 。 
类 型 : 类 名 
默认 值 : org.apache.hadoop.hbase.ipc.WritableRpcEngine 
hbase.server.thread.wakefrequency 


服务 线程 的 睡眠 时 间 间 隔 ， 单 位 是 晨 秒 。 例 如 ， 日 志 深 动 线 程 的 睡 
HERES PEJ PEJ BEA o 


类 型 : int 

默认 值 : 10000 (10%) 
单位 ;毫秒 
hbase.tmp.dir 


本 地 文件 系统 的 临时 文件 夹 ， 可 以 修改 为 一 个 更 为 持久 的 目录 
(Amp 目录 会 在 重启 时 被 清除 ) 。 


类 型 : string 





默认 值 : /tmp/hbase-${user.name} 
hbase. zookeeper.dns.interface 


当 使 用 DNS 时 ，ZooKeeper 服 务 器 用 来 上 报 其 IP 地 址 的 网 络 接口 


XAJ: string 
默认 值 : “default” 
hbase. zookeeper.dns.nameserver 


使 用 DNS 时 ，ZooKeeper 服 务 器 使 用 的 主机 名 或 IP 地 址 ，ZooKeeper 
服务 器 用 它 来 确定 和 master 进 行 通 信 的 主机 名 。 


类 型 : string 
默认 值 : “default” 
hbase. zookeeper. leaderport 
ZooKeeper 用 来 选择 主 节 点 的 端口 。 详 情 见 
http ://hadoop.apache.org/zookeeper/docs/r3.1.1/zookeeperStarted.html#sc_Rt 
类 型 : int 
默认 值 : 3888 
单位 : 数值 
hbase. zookeeper. peerport 


ZooKeeper 节 点 内 部 通信 使 用 的 端口 。 详 情 见 
http ://hadoop.apache.org/zookeeper/docs/r3.1.1/zookeeperStarted.html#sc_Rt 





类 型 : int 

默认 值 : 2888 

单位 : 数值 

hbase. zookeeper.property.clientPort 


ZooKeeper 的 zoo.cfg 配置 文件 中 的 属性 。ZooKeeper 面 问 客 户 端 服务 
的 端口 。 


类 型 : int 
默认 值 : 2181 
单位 ， 数值 


hbase. zookeeper.property.dataDir 


ZooKeeper 的 zoo.cfg 配置 文件 中 的 属性 。ZooKeeper 元 数据 快照 的 
存储 目录 。 


类 型 : string 
默认 值 : ${hbase.tmp.dir}/zookeeper 
hbase.zookeeper.property.initLimit 


ZooKeeper 的 zoo.cfg 配置 文件 中 的 属性 。 初 始 化 同步 阶段 可 使 用 的 
tick 的 数量 限制 。 


类 型 : int 

默认 值 : 10 

单位 : 数值 

hbase. zookeeper. property.maxClientCnxns 

ZooKeeper 的 zoo.cfg 配置 文件 中 的 属性 。ZooKeeper 集 群 中 的 单个 节 
点 接受 的 单个 客户 器 《以 了 进行 区 分 ) 的 请 求 的 并 及 数 。 这 个 值 可 以 适 
当 调 高 一 点 ， 以 避免 在 单机 模式 和 伪 分 布 式 模式 中 出 现 连 接 问题 。 

类 型 : int 

默认 值 : 30 

单位 ， 数值 

hbase.zookeeper.property.syncLimit 


ZooKeeper 的 zoo.cfg 配置 文件 中 的 属性 。 发 送 一 个 请 求 到 获得 承认 
之 间 的 tick 的 数量 限制 。 


XAJ; int 


默认 值 : 5 
单位 : 数值 
hbase. zookeeper. quorum 


ZooKeeper Quorum 中 的 服务 器 列表 ， 使 用 逗号 分 隔 。 例 如 ， 默 
认 “hostl.mydomain.com, host2. mydomain.com,host3.mydomain.com” 设 置 
为 本 地 主机 ， 协 助 伪 分 布 式 模式 使 用 。 在 完全 分 布 式 模式 下 ， 用 户 需要 
把 所 有 的 ZooKeeper Quorum 节 点 都 添加 进去 。 如 果 在 hbase-env.sh 文件 
中 设置 了 HBASE_MANAGES_ZK ， 此 列表 中 的 节点 就 是 我 们 将 会 启动 或 停 
止 ZooKeeper 服 务 的 节点 。 





XAJ: string 
ERE: localhost 
hfile.block.cache.size 


分 配给 存储 文件 HFile/SstoreFile HRAT hJa oh ENEA HE 
(-Xmx 设置 ) 的 比例 。 默 认 值 是 20%， 设 置 为 0 就 是 不 分 配 。 


类 型 : float 

默认 值 : 0.2 

单位 : VAR CAEL) 
zookeeper.session.timeout 


ZooKeeper 会 话 超期 时 间 。HBase 把 这 个 值 传递 给 ZooKeeper 
Quorum 作 为 建议 的 会 话 最 大 超时 时 间 。 详 情 见 
http ://hadoop.apache.org/zookeeper/docs/current/zookeeperProgrammers.htn 
。 如 有 果 客 户 端 超时 ， 服 务 器 端 会 做 相应 处 理 并 反馈 给 订阅 事件 的 客户 


端 。 单 位 是 毫秒 。 
XAJ., int 


默认 值 : 180000 





单位 ， 毫秒 
zookeeper. znode. parent 


HBase 在 ZooKeeper 中 的 根 znode。 所 有 的 HBase 对 应 要 操作 
ZooKeeper 的 znode 都 会 用 这 个 目录 作为 相对 路 径 。 默 认 情 况 下 ， 所 有 
， 的 ZooKeeper 文 件 路 径 都 是 相对 路 径 ， 所 以 都 会 去 这 个 目录 下 面 进 
行 操 作 。 


类 型 : string 


默认 值 : /hbase 





zookeeper. znode.rootserver 


到 保存 根 region 位 置 的 znode 的 路 径 ， 这 个 值 是 由 master 来 更 新 ， 客 
户 端 和 region 服 务 器 来 读 取 的 。 如 果 将 其 设置 为 一 个 相对 地 址 ， 父 目录 
就 是 ${zookeeper.znode.parent} 。 默 认 情 况 下 ， 根 region 位 置 的 存储 路 径 
是 /hbase/root-region-server 。 


类 型 : string 


默认 值 : root-region-server 





O 这 里 的 代理 指 的 是 这 段 过 程 调 用 过 程 中 客户 端的 接口 类 ， 用 于 表征 
服务 器 端 提 供 的 方法 。 不 同 于 上 网 时 用 的 代理 。 一 一 译 者 注 


附录 B 计划 


HBase 一 直 在 发 展 ， 本 节 主 要 介绍 HBase 近 期 的 发 展 计 划 。 








HBase 0.92.0 


这 一 版 的 主题 是 协 处 理 器 。 于 2011 年 第 三 季度 发 布 ， 其 中 增加 了 以 
BULA TE 


Pp Ah E at 


这 是 HBase 一 个 主要 的 新 特性 ， 协 处 理 器 可 以 帮助 用 户 编写 代码 并 
在 每 个 region 中 执行 ， 且 直接 返回 计算 结果 。 详 情 见 4.3 节 。 


TAHIA 

在 region 服 务 器 中 ，WAL 被 并 行 、 分 布 式 地 进行 恢复 。 这 使 HBase 
与 BigTable 在 这 一 点 上 类 似 。 
UI 中 展现 任务 


目前 很 难 观察 集群 后 台 在 执行 什么 任务 ， 如 合并 或 拆 分 。 这 个 新 特 
性 可 以 帮助 用 户 在 master 和 region 服 务 器 的 Web UI 中 观察 当前 集群 正在 
执行 的 任务 的 状态 。 详 情 见 6.5 节 。 


性 能 提升 

性 能 提升 涉及 多 种 改进 ， 由 量变 引起 质变 ， 有 超过 260 个 优化 问题 
解决 方案 被 打包 到 0.92.0 版 本 中 (完整 清单 参见 
https://issues.apache.org/jira/browse/HBASE/fixforversion/12314223 ) 。 


在 本 书 出 版 的 过 程 中 ，0.92.0 版 本 仍旧 在 发 展 。 有 关 最 新 的 动向 用 
户 可 以 到 官方 网 址 查看 其 特性 列表 。 











HBase 0.94.0 


HBase 下 一 个 版 本 的 计划 是 安全 特性 ， 这 一 特性 会 在 0.94 版 本 中 体 
现 出 来 。 除 此 之 外 ， 还 有 其 他 一 些 重量 级 功能 特性 仍 处 于 研发 状态 ， 详 
情 可 见 https://issues.apache.org/jira/browse/HBASE/fixforversion/12316419 
安全 (Security ) 

在 HBase 中 增加 Kerberos 验 证 。 
辅助 索引 (Secondary Indexes) 


| 通过 协 处 理 需 增加 辅助 索引 ， 人 允许 用 户 创建 和 管理 表 上 基于 列 的 过 
Ale 


搜索 集成 (Search Integration) 


本 特性 使 用 户 可 以 创建 和 管理 搜索 索引 ， 例 如 ， 按 region 的 基于 
Apache Lucene 索 引 ， 这 样 用 户 可 以 在 行 或 列 中 搜索 数据 。 


HFile 格 式 第 二 版 (HFile v2) 
新 的 存储 格式 ， 克 服 了 现 有 存储 格式 的 缺点 。 
这 个 版 本 还 有 一 些 很 有 趣 的 功能 特性 ， 例 如 ， 插 件 式 块 缓存 特性 ， 
该 特性 使 用 户 可 以 在 JRE 扒 内 存 之 外 管理 一 块 内 存 ， 有 利于 减少 内 存 垃 
: 这 一 点 恰好 是 HBase 集 群 在 读 写 压力 比较 大 的 情况 下 最 值得 关注 
J 问题 。 


更 多 的 相关 内 容 可 以 到 JIRA 平 台中 查看 。 














附录 C 版 本 升级 


升级 HBase 需 要 制定 非常 谨慎 详细 的 计划 ， 尤 其 是 生产 集群 。 深 动 
重 局 可 以 帮助 用 户 不 停机 升级 ， 详 情 见 12.1.2 节 。 


| we iF 
一 人 依据 用 户 将 要 使 用 的 Hbase 版 本 ， 用 户 需要 先 升 级 
底层 Hadoop 版 本 并 使 Hadoop 版 本 与 HBase 依 赖 的 版 本 进行 匹 


配 ， 有 关 Hadoop 的 升级 指南 可 在 Hadoop 官 方 网 站 查阅 。 





升级 到 HBase 0.90.x 


由 于 用 户 使 用 的 HBase 版 本 可 能 不 同 ， 集 群 中 从 旧版 本 升级 到 新 版 
本 需要 不 同 的 步 台 。 下 面 列 出 了 常规 的 升级 方案 。 


原始 版 本 0.20.x 或 0.89.x 


0.90.x 系 列 疝 下 兼容 ， 可 以 直接 读 取 0.20.x 版 本 产生 的 数据 。0.90.x 
与 0.89.x 会 通过 MD5 散 列 算法 (而 非 Jenkins 散 列 ) 计算 出 region 名 ， 并 
写 入 指定 目录 一 一 这 意味 着 ,一旦 0.20.x 向 上 升级 ， 就 无 法 再 回 退 到 
0.20.x 系 列 了 。 


升级 时 一 定 要 先 从 conf 目录 中 移 除 hbase-default.xml 这 个 文件 ， 与 
0.20.x 不 同 的 是 ，0.90.x 将 这 个 文件 默认 打包 到 了 JAR 中 ， 读 者 可 以 到 src 
目录 中 进行 查找 ， 见 $HBASE_HOME/src/main/resources/hbase- 
default.xml 或 者 见 附录 A。 


升级 后 ， 用 户 需 要 通过 终端 检查 .META. 的 结构 。 以 前 有 人 建议 以 
16 KB 的 MEMSTORE_F eee 运行 。 在 Shell 中 执行 以 下 命令 : 








hbase(main):@@1:@> scan ' -ROOT- 





以 上 命 令 可 以 输出 当前 的 ， META. 结构 。 检 查 
MEMSTORE_FLUSHSIZE 是 否 被 设置 为 了 16 KB (16384 ) 。 如 果 是 ， 需 
要 改变 这 种 情况 ， 默 认 的 新 值 是 64 MB (67108864 ) 。 运 
47 $SHBASE_HOME/bin/set_meta_memstore_size.rb 脚本 ， 这 会 对 ， 
结构 进行 必要 的 修改 ， 如 果 不 改 变 上 述 参 数 的 值 ， 集 群 运行 会 变 慢 


0.90.x 之 间 升 级 


这 种 情况 比较 简单 ， 用 户 只 需要 简单 地 安装 新 版 本 ， 然 后 使 用 
12.1.2 市 介绍 的 过 程 重启 region 服 务 器 即 可 。 


升级 到 HBase 0.92.0 


滚动 重 局 是 不 可 能 的 ， 两 个 版 本 之 间 的 引导 协议 已 经 发 生 了 变化 。 
用 户 需 要 提前 同步 准备 安装 ， 然 后 关闭 集群 ， 并 重新 以 新 版 本 启动 集 
群 ， 此 时 不 需要 迁移 数据 。 





O 更 多 细节 请 查看 “HBASE-3499 Users upgrading to 0.90.0 need to have 
their .META. table updated with the right MEMSTORE_SIZE” ( 
http://issues.apache.org/jira/browse/HBASE-3499 ) 。 


附录 D 分 支 


除了 Apache 提 供 的 版 本 ， 用 户 还 可 以 有 其 他 的 选择 ， 下 面 我 们 就 罗 
列 一 下 可 用 的 安装 版 本 。 





Cloudera 的 Hadoop 分 支 


Cloudera 的 版 本 《简称 CDH) 基于 Apache Hadoop 最 新 的 稳定 版 ， 
并 打 入 了 很 多 的 补丁 ， 做 了 较 多 的 移植 和 更 新 。Cloudera 提 供 了 非常 多 
HIŠE TET: 源 代 码 、 二 进 制 tar 文 件 、RPM、Debian 软 件 包 、VMware 
镜像 和 在 云 中 运行 CDH 的 脚本 。CDH 开 源 ， 发 行 版 基于 Apache 2.0 的 许 
可 序列 号 ， 详 情 见 http:/www.cloudera.com/hadoop/ 。 


为 了 部 署 方便 ，Cloudera 提 供 了 yum Mapt 库 。CDH 可 以 做 到 一 行 
命令 就 在 每 台 机 器 上 安装 和 配置 Hadoop 和 HBase， 需 要 快速 启动 的 用 户 
可 以 上 自动 使 用 整个 集群 而 无 需 人 工 干 涉 。 


CDH 管 理 跨 组 件 的 版 本 ， 并 提供 了 一 个 稳定 的 包含 兼容 的 一 组 软件 
ae CDH3 包 含 以 下 软件 包 《 其 中 很 多 软件 包 在 本 书 中 都 介绍 
过 ) : 









































。 HDFS 一 一 分 布 式 文件 系统 

e MapReduce 一 一 强大 的 并 行 数 据 处 理 框架 

e Hadoop Common 一 一 支持 Hadoop 子 项 目的 实用 工具 集 
e HBase 一 一 用 于 随机 读 写 的 Hadoop 数 据 库 

。 Hive 一 一 大 数据 集 的 类 SQL 碍 询 和 表 

。 Pig 一 一 数据 流 语言 和 编译 器 

e Oozie 相互 独立 的 Hadoop 作 业 工 作 流 程 

。 Sqoop 一 一 将 数据 库 数据 仓库 与 Hadoop 集 成 

e Flume 高 可 靠 、 可 配置 的 流 式 数据 收集 框架 
。 ZooKeeper 一 一 分 布 式 应 用 系统 的 协同 服务 

e Hue W je] Hadoop HY) R Hl FEF 
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对 于 HBase CDH 解 决 了 集群 安装 的 可 靠 性 问题 ， 且 拥有 HFDS 的 所 
有 补丁 来 保证 持久 性 。 而 Hadoop 项 目 本 映 并 没有 在 0.20.x 系 列 中 为 一 台 
服务 器 朋 溃 而 不 丢 数 据 的 情况 提供 文 持 。 


要 下 载 CDH， 请 访问 http:/www.cloudera.com/downloads/ 。 





附录 E Hush SQL Schema 


HBase URL 短 地 址 ( 即 Hush) 结构 可 以 用 SQL 来 表示 : 





CREATE TABLE user ( 


id INTEGER UNSIGNED NOT NULL AUTO_INCREMENT, 
username CHAR(2@) NOT NULL, 
credentials CHAR(12) NOT NULL, 
roles CHAR(1@) NOT NULL, // could be a separate table "userroles", but \ 
for the sake of brevity it is folded in here, eg. "AU" == "Admin,User" 
firstname CHAR(2@), 
lastname CHAR(3@), 
email VARCHAR(6@), 
CONSTRAINT pk_user PRIMARY KEY (id), 
CONSTRAINT idx_user_username UNIQUE INDEX (username) 


)3 


CREATE TABLE url ( 
id INTEGER UNSIGNED NOT NULL AUTO_INCREMENT, 
url VARCHAR(4@96) NOT NULL, 
refShortId CHAR(8), 
title VARCHAR(2@@), 
description VARCHAR(4@@), 
content TEXT, 
CONSTRAINT pk_url (id), 


) 


CREATE TABLE shorturl ( 

id INTEGER UNSIGNED NOT NULL AUTO_INCREMENT, 

userId INTEGER, 

urlId INTEGER, 

shortId CHAR(8) NOT NULL, 

refShortId CHAR(8), 

description VARCHAR(4@@), 
CONSTRAINT pk_shorturl (id), 
CONSTRAINT idx_shorturl_shortid UNIQUE INDEX (shortId), 
FOREIGN KEY fk_user (userId) REFERENCES user (id), 
FOREIGN KEY fk_url CurlId) REFERENCES url (id) 


) 


CREATE TABLE click ( 
id INTEGER UNSIGNED NOT NULL AUTO_INCREMENT, 
datestamp DATETIME, 


shortId CHAR(8) NOT NULL, 
category CHAR(2), 
dimension CHAR(4), 
counter INTEGER UNSIGNED, 
CONSTRAINT pk_clicks (id), 
FOREIGN KEY fk_shortid (shortId) REFERENCES shortid (id); 





附录 F 对 比 HBase 和 BigTable 


HBase 整 体 上 实现 了 第 1 章 中 描述 的 所 有 的 BigTable 特 性 。 不 同 的 
征 ， 因 为 BigTable 论 文本 身 的 描述 不 是 非常 详细 ， 而 且 依赖 于 其 他 的 开 
源 项 目 ， 因 此 两 者 的 工作 机 制 略 有 不 同 。 


HBase 使 用 的 时 间 惟 单位 是 毫秒 一 一 BigTable 使 用 的 单位 是 微妙 。 
这 并 不 是 大 问题， 原因 与 Java 和 C 语 言 的 特性 有 关 ， 这 两 种 语言 最 优 的 
计时 器 精度 不 同 。 


需要 指出 的 是 ， 两 者 使 用 了 不 同 的 压缩 算法 。HBase 使 用 的 是 Java 
提供 的 压缩 算法 ， 也 可 以 使 用 LZO。 BigTable 有 一 种 两 阶段 的 压缩 算 
法 ， 分 别 使 用 BMDiff 和 Zippy。 


HBase 中 有 协 处 理 右 ， 这 不 同 于 BigTable 中 提供 的 Sawzall (类 似 于 
协 处 理 器 的 框架 ) 。 包 Google 的 协 处 理 器 实现 的 细节 并 不 详细 ， 因 此 有 
更 多 未 知 的 差异 。 另 一 方面 ，HBase 支 持 服 务 器 端的 过 滤器 ， 可 以 帮助 
减少 从 服务 器 端 返回 到 客户 端的 数据 量 。 


HBase 主 要 工作 在 Hadoop 分 布 式 文件 系统 CHDFS) 上 ， 而 BigTable 
使 用 GFS。 但 是 ，HBase 也 可 以 工作 在 其 他 文件 系统 上 ， 还 要 感谢 
Hadoop 提 供 了 Filesystem 插件 ， 例 如 ，Amazon S3《〈 类 似 于 HDFS) 和 
EBS. 


HBase 不 能 映射 存储 文件 到 内 存 中 ，BigTable 则 可 以 。 目 前 有 正在 
进行 中 的 工作 来 优化 HBase 的 VO 性 能 并 广泛 使 用 的 Java 的 New 
VO (NIO) ， 这 些 将 会 使 HBase 性 能 得 到 提升 。 


BigTable 还 有 一 个 特性 叫做 locality groups ， 该 特性 可 以 使 客户 端 可 
以 将 特定 的 列 族 组 合 ， 并 使 它们 分 享 属 性 ， 如 压缩 ， 这 在 多 个 组 合 列 经 
和 常 同时 被 访问 时 非常 有 好 处 ， 因 为 它们 的 数据 会 被 放 到 相同 的 存储 文件 
中 。 在 BigTable 中 ， 列 族 被 用 于 统计 和 访问 控制 ， 而 在 HBase 中 ， 则 是 
截然 不 同 的 概念 跟 用 法 。 


两 个 系统 中 都 有 块 缓 存 ，BigTable 还 实现 了 键 / 值 缓存 (key/value 








cache) ， 用 于 被 经 党 访问 的 热点 单元 格 。 


两 个 系统 对 提交 日 志 的 处 理 和 实现 也 略 有 不 同 ，BigTable 有 两 种 处 
理 慢 写 的 提交 日 志 ， 并 且 可 以 自动 切换 两 种 模式 。 这 个 特性 也 可 以 在 
Hbase 中 实现 ， 但 目前 还 没有 一 个 相应 的 议题 被 讨论 过 ， 所 以 也 一 直 被 
大 家 忽视 了 。 


相 比 而 言 ，HBase 提 供 了 跳 过 写 提交 日 志 的 方式 ， 这 种 模式 会 带 来 
性 能 上 的 提升 ， 但 前 提 是 要 保证 可 以 接受 服务 器 衣 省 后 数据 丢失 的 情 
况 。 











METADATA 表 在 BigTable 中 可 以 用 来 存储 二 级 信息 ， 例 如 ， 与 每 个 
表 段 (tablel) 相关 的 事件 信息 。 这 些 信息 可 以 用 来 分 析 表 段 的 转换 、 
Rn urea: 
T: 


region 拆 分 是 相似 的 ， 但 是 合并 有 所 不 同 。HBase 提 供 了 一 个 工具 
来 手动 合并 region， 而 BigTable 中 提供 了 自动 合并 region 的 逻辑 。 合 并 
ee 
最 优 。 


另外 一 个 细小 的 差距 是 ，BigTable 的 master 提 供 了 存储 文件 的 垃圾 
回收 。 这 样 做 的 一 个 原因 可 能 是 在 BigTable 中 ， 存 储 文件 在 METADATA 
表 中 被 跟踪 。 对 于 HBase 而 言 ， 清 理 是 由 region 服 务 器 完成 的 ， 在 region 
服务 器 做 完 拆 分 后 并 没有 专门 记录 文件 的 位 置 。 


BigTable 可 以 在 内 存 中 映射 存储 文件 ， 这 使 得 在 查询 时 没有 磁盘 寻 
道 。HBase 中 可 以 在 列 族 一 级 配置 在 内 存 中 Cin-memory) 属性 ， 该 属性 
被 用 于 LRU 算 法 中 © 以 保证 其 尽 可 能 不 被 淘汰 。 


两 者 的 合并 算法 也 不 相同 。 例 如 ， 合 并 时 也 包含 内 存 数 据 刷 写 。 而 
其 他 的 则 是 相同 的 ， 只 是 命名 不 同 。 


region 名 存储 在 HBase 的 meta 表 中 ， 结 合 了 表 名 、 起 始 行 健 和 一 个 
ID， 而 在 BigTable 中 ， 则 使 用 表 标 识 符 和 终止 行 健 组 合 。 这 种 设计 在 存 
储 文件 中 定位 数据 位 置 时 稍稍 有 些 影 响 〈 详 情 见 8.4 节 ) 。 


最 后 ， 值 得 注意 的 是 ，HBase 拥 有 两 个 独立 的 目录 表 ， 即 -ROOT- 

















和 .META. 。 在 BigTable 中 只 有 root 表 ， 由 于 两 种 系统 中 它们 都 只 包含 一 
个 region/ 表 段 ，BigTable 中 root 被 存储 为 meta 表 的 一 部 分 。 在 METADATA 
， 第 一 个 表 段 为 root 表 ， 其 余 表 段 都 为 meta 表 段 。 这 些 仅仅 是 实现 
J 细节。 








O 在 写 这 本 书 时 ，Google 将 Zippy 发 布 在 了 Apache 许 可 下 ， 命 名 为 
Snappy。 详情 见 链接 http://code.google.com/p/snappy/ 。 


(2) Jeff Dean 在 LADIS '09 有 一 个 关于 协 处 理 器 的 谈话 ( 
http://www.scribd.com/doc/2163448/Dean-Keynote-Ladis2009, 66-67 页 ) 。 


G@) 见 Wikipedia 中 Cache algorithms 一 节 。 


关于 作者 


Lars George 从 2007 年 开始 参与 HBase 的 项 目 ， 到 2009 年 已 经 成 为 
HBase comitter。 他 参加 了 各 种 Hadoop 用 户 组 会 议 以 及 一 些 大 型 的 会 
议 ， 如 在 布鲁塞尔 举行 的 FOSDEM， 同 时 他 还 在 慕尼黑 创办 了 Munich 
OpenHUG 会 议 。 目 前 他 在 Cloudera 工 作 ， 担 任 解 决 方案 架构 师 ， 在 欧洲 
地 区 提供 Hadoop 与 HBase 的 技术 支持 、 咨 询 和 培训 。 


关于 封面 


《HBase 权 威 指南 》 封 面 上 的 动物 是 克 羔 兹 代 尔 号 。 它 起 源 于 苏 格 
兰 地 区 ， 其 历史 可 以 退 溯 到 19 世 纪 初 ， 是 进口 的 佛 兰 德 种 马 与 当地 母 马 
杂交 产生 的 品种 。 这 种 号 的 繁殖 是 为 了 满足 当地 农民 的 需要 ， 以 及 在 全 
国 各 地 运输 煤 痰 以 及 其 他 货物 。 由 于 它 作为 负重 马 非常 可 靠 ，20 世 纪 
初 ， 克 莱 效 代 尔 马 开始 被 出 口 到 许多 国家 ， 包 括 澳 大 利 亚 、 新 西 兰 、 加 
拿 大 和 美国 。 机 械 时 代 的 到 来 降低 了 对 这 一 品种 的 需求 ， 虽 然 20 世 纪 后 
人 了 小 幅 上 升 ， 但 这 种 马 仍然 被 认为 是 容易 灭绝 的 
HA o 


现代 的 殉 莱 北 代 尔 马 略 大 于 原来 的 苏格兰 马 ， 品 种 标准 高 度 162 一 
183 cm 〈 约 64 一 72 英 寸 ) ， 重 量 约 725 一 998 kg 〈 约 1600 一 2200 磅 ) 。 
不 过 ， 马 的 外 观 在 其 整个 发 展 历史 中 基本 没 变 。 殉 莱 效 代 尔 马 与 其 他 品 
种 相 比 ， 有 非常 鲜明 的 特征 ， 尤 其 是 其 腿 部 和 高 昂 的 步伐 。 它 的 身体 通 
种 是 亦 福 色 的 、 标 色 或 黑色 的 ， 和 白色 或 红 标 色 的 里 毛 。 亮 白 的 脸 和 腿 与 
深 色 的 身体 形成 鲜明 对 比 ， 不 过 腿 是 黑色 的 马 也 并 不 罕见 。 众 所 周知 的 
是 ， 它 的 脚 的 大 小 刚好 适合 盘子 大 小 的 马蹄 铁 。 


虽然 在 很 大 程度 上 拖拉 机 取代 了 马 的 地 位 ， 但 殉 莱 效 代 和 尔 马 仍然 是 
农业 生产 中 不 可 或 缺 的 生产 物资 ， 同 时 也 用 于 骑 、 运 输 服务 和 旅游 等 。 
在 美国 ， 克 莱 北 代 尔 马 是 Anheuser Busch 酿 酒 公司 营销 活动 使 用 的 马队 
中 最 常 选 用 的 品种 。 
































欢迎 来 到 异步 社区 ! 


异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 出 版 社 旗 下 IT 专业 图 书 旗 
舰 社 区 ， 于 2015 年 8 月 上 线 运营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 IT 专业 优质 出 版 资源 和 编 
得 策划 团队 ， 打 造 传统 出 版 与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印刷 与 POD 按 需 印刷 结合 的 出 版 平台 ， 提 供 最 新 技术 资讯 
为 作者 和 读者 打造 交流 互动 的 平台 。 





{Fn 





近期 活动 









异步 社区 成 立 一 周年 大 型 焰 书 活动 开启 ! 
异步 社区 的 来 历 异步 社区 是 人 民 邮 思 出 版 社 旗下 
TS, 业 图 书 齐 舰 社区， 于 2015 年 8 月 上 线 运 
营 ， 异 步 社区 依托 于 人 民 闻 电 出 版 社 20 年 的 IT 
专业 -. 
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Python 游戏 坊 程 快速 上 ”机 医学 习 项 目 开 发 实战 seiePythonRMBAl] SiE 
+ 与 实战 ( 第 2 版 ) Python ( S215 ) 


社区 里 都 有 什么 ? 
购买 图 书 

我 们 出 版 的 图 书 涵盖 主流 IT 技 术 ， 在 编程 语言 、Web 搁 术 、 数 据 科 
学 等 领域 有 众多 经 典 畅 销 图 书 。 社 区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 
400 多 种 ， 部 分 新 书 实 现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 布 新 
书 书 讯 。 
下 载 资源 

社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 


另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 
可 以 免费 下 载 。 


与 作 译 者 互动 


很 多 图 书 的 作 译 者 已 经 入 驻 社 区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问 
题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 趣 
的 故事 ， 还 可 以 参与 社区 的 作者 访谈 栏目 ， 回 您 关注 的 作者 提出 采访 题 
目 。 











灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 民 
邮电 出 版 社 书 库 发 货 ， 电 子 书 提 供 多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 用 户 可 以 第 一 时 间 
买 到 心仪 的 新 书 。 


用 户 帐 户 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 买 图 书 





时 ， 在 Mmm 里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 








购买 本 电子 书 的 读者 专 享 异步 社区 优惠 券 。 使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购 书 
时 输入 "57AWG ”然后 点 击 “ 使 用 优惠 码 ”， 即 可 享受 电子 书 8 折 优 惠 〈( 本 优惠 券 只 可 使 用 一 
W) 


纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 价 格 优惠 ， 一 次 购 
买 ， 多 种 阅读 选择 。 















































软 技能 : 代码 之 外 的 生存 指南 

[Š] Z. FBS (John Z Sonmez ) (作者 ) 王 小 刚 ( 译 者 ) hiss Sew) 
G 6 # | 9.0K 
JF EPF Wz 阅读 


这 星 一 本 真正 从 “人 ”【( 而 非 按 术 也 非 管 理 ) 的 角度 关注 软件 开发 人 员 已 身 发 展 的 蔬 。 书 中 论述 的 
内 容 茎 涉及 生活 习 悍 ,又 包括 导 维 方式 ,总 显 技术 中 “人 ”的 因素 ， 全面 洪 解 软 件 行业 从 业 人 员 所 
需 知 道 的 所 有 “ 软 技能 ”。 

本 书 暴 焦 于 软件 开发 人 员 生 活 的 方方面面 , 从 更 秘 画 试 的 流程 到 精 耕 绍 作出 一 份 杀手 级 简历 , Me! 
建 大 过 欢迎 的 博客 到 打 和 址 你 的 个 人 品牌 ， 从 提高 号 己 工 作 效 至 到 与 如 何 与 “ 疮 延 首 ”做 斗争 ， 基 至 
包括 如 何 投资 不 动产 ， 如何 关注 富 己 的 健康 ， 

本 书 共 分 为 职业 简 、 生 我 营销 简 、 学 习 简 、 生 产 力 简 、 理 财 简 、 健 身 简 、 精 神 簿 等 七 简 ， 概括 了 软 


® 纸 质 版 ” 闻 S9.69 着 46.02(78 折 ) 


s aza vso ED 


© 电子 版 + 纸 质 版 ¥59.00 


社区 里 还 可 以 做 什么 ? 
提交 勘误 


您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 
积分 。 热 心 勘 误 的 读者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 


写作 

社区 提供 基于 Markdown 的 写作 环境 ， 台 欢 写作 的 您 可 以 在 此 一 试 
身手 ， 在 社区 里 分 享 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 上 自 出 版 的 乐 
趣 ， 轻 松 实现 出 版 的 梦想 。 


am A T E 





会 议 活 动 早 知 道 
您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 


加 入 异步 


扫描 任意 二 维 码 都 能 找到 我 们 : 





微 信 订 阅 号 














QQ: 368449889 


社区 网 址 : www.epubit.com.cn 


官方 微 信 : ”异步 社区 
官方 微 博 : @ 人 邮 和 异步 社区 ，@ 人 民 邮 电 出 版 社 -信息 技 术 分 社 
投稿 必 咨 询 : contact@epubit.com.cn 


>> 
EI 

如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@epubit.com.cn， 会 
有 编辑 或 作 译 者 协助 答疑 。 也 可 访问 异步 社区 ， 参 与 本 书 讨 论 。 

如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@epubit.com.cn. 
在 这 里 可 以 找到 我 们 : 


。 微 博 : @ 人 邮 异 步 社区 
© QQE: 368449889 





